こんにちは、バックエンドエンジニアの飯沼です。
この記事では、『NEWT(ニュート)』で海外ツアーを予約する際に、パスポートの氏名の入力誤りを防ぐ仕組みを解説します。「スペル誤り」や「姓名逆入力」を、アルファベット氏名の辞書を使った簡単な方法でチェックできると考えて開発を始めましたが、思いのほか工夫が必要で、最終的にはニューラルネットワークを利用して「姓らしさ」をスコアリングするアプローチで解決しました。課題の背景から開発時の試行錯誤も含めて説明したいと思います。
🚨 課題:氏名を間違えると飛行機に乗れない
NEWTでは航空券やホテルの手配のために、ツアー予約時にアルファベット表記の氏名を入力頂いています。この氏名がパスポート記載の氏名と一致しないと、場合によっては飛行機に乗れないという最悪の体験をもたらすことになります。当然、これを防ぐために、手配時に誤りがないか人手でチェックをして、誤りの可能性がある場合はお客さまに確認をしたうえで手配を行っており、それなりの人的コストが掛かっている状態でした。この課題に対してはOCRを利用した「パスポートスキャナー」やプレースホルダーの見直しなど、以前から改善を行ってきましたが、氏名の入力誤りはまだ多く改善の余地があったため今回紹介するアラート機能を開発しました。
具体的には次の2種類の誤りが多く発生していました。
- 姓と名が逆:NEWTでは入力欄が姓→名の順に並んでいて、例えばYAMDA SAKURAと入力すべきところにSAKURA YAMADAと入力するパターンです。※ 実は私も初めてNEWTに登録する際に同じミスをしていました。これまでアルファベットで氏名を入力する際は名→姓の順で記載することが多かったので癖でそのように入力したのだと思います。
- パスポートに記載のヘボン式とは異なる表記:例えばSHUMPEIをSHUNPEIと記載してしまうようなケースです。※ ヘボン式ではP,Bなどの破裂音の直前の「ん」はNではなくMと表記します。私自身も初めてパスポートを新規申請した際に指摘されて知りました。初めての海外旅行でまだパスポートが手元に準備できてない場合に多く発生すると考えられます。なお、パスポート氏名は原則ヘボン式ですが、申請すればヘボン式以外の表記でも登録可能です。
💡 最初のアプローチ:氏名の辞書を利用する
まず、日本人のヘボン式アルファベット氏名の辞書を利用した方法を試しました。
※ 辞書はコールセンター業務などで漢字の読みを調べるなどの目的で販売・利用されているものであり、特定の個人名を含むものではありません。姓 (surname) と名 (given name) は別々の辞書として提供されています。
- 入力された姓が姓の辞書に存在し、かつ、入力された名が名の辞書に存在する → 誤りなしと判定
- 入力された姓が名の辞書に存在し、かつ、入力された名が姓の辞書に存在する → 姓と名が逆に入力されている可能性が高いと判定
- 入力された姓または名が辞書に存在しない → ヘボン式でないなど、スペル誤りの可能性が高いと判定
誤り(の可能性)を検出した場合はそれぞれ以下のようなアラートを表示します。
実装後の社内でのQAの結果… 上記の方法ではスペル誤りは検知できても姓名逆入力の検知が十分に機能しませんでした。
なぜでしょうか?辞書を調べたら、名の辞書に姓らしきエントリーが多く含まれており(その逆も)、逆転して入力した姓名が辞書のエントリーとマッチして誤りとして検知できていないことが分かりました。例えば、日本人の姓として代表的なSUZUKI, TANAKAなどが名の辞書にも含まれ、名として代表的なTAROが姓の辞書にも含まれていました。
詳しく見てみると2つ原因がありました。
- アルファベット表記にした場合に、姓名どちらともあり得るエントリーが存在する:例えば、TAROは名の「太郎(たろう)」、姓の「多呂(たろ)」、SUZUKIは姓の「鈴木(すずき)」、名の「鈴希(すずき)」とも解釈が可能です。姓7.6万件、名5.4万件のうち約1.7万件が姓/名のどちらにも存在していました。
- 辞書の不具合:私はお会いしたことがないのですが名の辞書に姓に多い「田中(たなか)」さんがいるなど、他にも気になるエントリーが多数存在しました。
辞書の不具合は購入元に問い合わせて解決できても、結局、私が知らない姓名どちらともあり得るエントリーが無数に存在するため、今回は次に紹介するアプローチでまとめて解決することにしました。
💡「姓らしさ」をスコアリングする
入力された姓名が逆であることを人間が判別する際には、姓/名それぞれを個別に見ているのではなく、総合的に見てこっちの方が姓(または名)らしいな、と考えているでしょう。これをヒントに、姓/名のバイナリーではなく、どっちが「姓」らしいかスコアリングするアプローチに切り替えました。
- 入力された姓/名の「姓らしさ」をそれぞれスコアリングする
- (入力された姓のスコア) < (入力された名のスコア) の場合に、姓名が逆転している可能性が高いと判断してアラートを表示する
例えば、*SAWA(沢)、*NUMA(沼)のようなパターンの名前は姓の可能性が高く、*HEI(平)のようなパターンは名である可能性が高い、というように表層的な文字の並びから姓/名の判別をすることができると考え、今回はニューラルネットワークによる分類モデルの学習を試しました。
Step 1: 学習の準備
姓/名の辞書のうち、どちらか一方の辞書にしか存在しないエントリーを利用します。エントリー数の内訳は以下の通りです。
- 姓の辞書にしか存在しないエントリー:約6.0万件
- 名の辞書にしか存在しないエントリー:約3.8万件
まず、氏名をニューラルネットワークに入力するために、今回はシンプルなOne-Hotエンコーディングで文字列を行列に変換する関数を準備します。※ 以降Pythonのサンプルコードを使って説明します。
例えば、入力が
abe
の場合、次のような2次元配列(MAX_LENGTH
行、27列の行列)を出力します。上記の関数を使ってニューラルネットワークへの入力と教師ラベルを準備します。
Step 2: ニューラルネットワークの学習と評価
学習と評価のためデータを分割します。以下の例ではscikit-learnの
train_test_split
を利用して、8割を学習用、2割をテスト用として分割しています。次にTensorFlowを利用してニューラルネットワークを構築します。今回はチュートリアルにもある手書き数字の分類モデルをベースに構築しました。
この時点で、学習データに対して0.89、テストデータに対しては0.87の精度で姓/名を分類できました。
その後、中間層を増やしてみたり、CNNのモデルで試行錯誤してみましたが、精度はそれほど改善せず、最終的には最初に試した上記のモデルを採用しました。ちなみに、中間層を1層増やした場合は、学習データに対する精度は0.9を超えるようになりますが、テストデータに対する精度はむしろ下がり、学習データに対して過学習したような状態となりました。CNNのモデルで精度が改善しなかった理由としては、画像とは異なり、氏名という短い文字列のため、2次元空間にしたところで分類に有益な情報とはならなかったのではないかと考えています。
Step 3: 「姓らしさ」のスコアリング
最後に、学習したモデルを使って姓/名どちらの辞書にも存在するエントリーの「姓らしさ」をスコアリングします。モデルの出力をsoftmax関数に渡すことで確率を得ることができます。
これを利用して、以下のように「姓名逆入力」を検知します。
- input: 姓=TARO, 名=SUZUKI
- 姓である確率:
- (姓)TARO: 0.32
- (名)SUZUKI: 0.52
- 結果: 姓である確率(姓) < 姓である確率(名) → 「姓名逆入力」と判定
おわりに
以上、この記事ではNEWTの氏名入力誤りを防ぐための仕組みについて解説しました。この仕組みによって氏名を間違えずに確実に海外旅行を楽しんで頂けたら幸いです。
ニューラルネットワークは知っているけどOne-Hotエンコーディングなど文字列の扱い方は知らなかったという方にとっては、今後の課題解決の手段として参考になれば幸いです。ニューラルネットワーク自体に関しては以下の文献がとてもわかりやすいのでぜひ参考にしてください。
また、令和トラベルでは、一緒に働く仲間を募集しています。興味を持っていただいた方がいれば、ぜひご連絡をお待ちしております!