1. 日本の住所表記にはどんな問題があるのか

一般に、日本の住所表記には、以下の問題が存在します。
問題 説明
未分類 異なる住所要素(例えば、都道府県名、郡名、市町村名、区名等)が切り分けされておらず、一塊の文字列になっています(例えば、「東京都文京区白山1丁目28番10号」)。
省略 都道府県名や郡名、場合によっては政令指定都市名称が省略されています(例えば、いきなり特別区名から始まる等)。
表記のゆれ 例えば、「霞が関」-「霞ケ関」-「霞ヶ関」-「霞ガ関」-「霞関」、「上の山」-「上ノ山」-「上之山」-「上山」、或いは「六つ川」-「六っ川」-「六ツ川」-「六ッ川」-「六川」、又は「一丁目二十八番十号」と「1-28-10」などの表記のゆれが含まれています。
住所の経年変化 住所は時間の経過と供に変わります。代表的な例が市町村合併です。結果として、処理の対象となる住所文字列が現在使われていない古いモノであることが有り得ます。

これらの問題に対する利用者ニーズを整理すると以下の表に示す通りです。eCapGCはいずれの問題にも的確に対処しております。
問題 利用者のニーズ
未分類及び省略 「多摩区菅仙谷3-xx-yy」を「神奈川県 川崎市 多摩区 菅仙谷 3-xx-yy」に変換したい。
表記のゆれ 「霞が関」、「霞ケ関」、「霞ヶ関」、「霞ガ関」、「霞関」を全て同一とみなしたい。「上の山」、「上ノ山」、「上之山」、「上山」を全て同一とみなしたい。「六つ川」、「六っ川」、「六ツ川」、「六ッ川」、「六川」を全て同一とみなしたい。「一丁目二十八番十号」、「一-二十八-十」、「1-28-10」を全て同一とみなしたい。
住所の経年変化 市町村合併前の古い市町村名でも、正しく認識して欲しい。


 

2. 住所表記の問題にどう対処しているのか

日本の住所表記の問題と、それに対するeCapGCの解決法を以下に示します。
2.1. 未分類
一塊の住所文字列を住所要素毎に分類します。例えば、「東京都文京区白山1丁目28番10号」と言う一塊の文字列を「東京都」、「文京区」、「白山」、「1」、「28」、「10」と言う様に分解します。
 
2.2. 省略
都道府県名、郡名、市町村名、区名の省略に対して、省略されていない他の住所項目データより可能な限り推測して、対処します。「正規化」する場合は、例えば、「霞ケ関」に対して「東京都 千代田区 霞ケ関」と言う様に「東京都」及び「千代田区」を補います。
 
2.3. 表記のゆれ:濁音
(が、ケ、ケ、ガ、空白)、(の、ノ、之、空白)、(つ、っ、ツ、ッ、空白)のゆらぎがあっても同じものとみなします。例えば、「霞が関」-「霞ケ関」-「霞ヶ関」-「霞ガ関」-「霞関」、「上の山」-「上ノ山」-「上之山」-「上山」、「六つ川」-「六っ川」-「六ツ川」-「六ッ川」-「六川」は各々同じ名称であるとみなします。「正規化」する場合は、基準となる住所辞書DB内の表記が返されます。
 
2.4. 表記のゆれ:数値
漢用数字文字列、全角の算用数値文字列、半角の算用数値文字列のいずれにも対処しています。また、区切り文字として「丁目、番、号」、「-」、「の」のいずれにも対応しています。「正規化」する場合は、「1」、「28」、「10」と言う様に分離された半角数値として返します。 更に、同一住所文字列内の異なる住所要素間での漢用数字文字列、全角の算用数値文字列、半角の算用数値文字列の混在も許しています。つまり、「××区○○十二丁目28番10号」を許します。
 
2.5. 表記のゆれ:「条」や「地割」の前の数値
(○○4条、○○4条→○○四条) 及び (○○4地割、○○4地割→○○四地割)などのゆらぎを考慮して検索します。
 
2.6. 住所の経年変化:市町村合併
郵便番号データ(郵便事業株式会社が提供する市町村合併履歴の基礎データ)に基づいて、過去の住所も管理することにより、市町村合併などの住所変更にも対応します。
 

3. 正規化/クレンジングとはどんな処理か

正規化/クレンジングとは、住所表記の問題を解決するために、表記のゆれを統一し、省略を補い、一塊の住所文字列を住所要素毎に分けることを意味します。 ここで住所要素とは、住所文字列を構成する要素を意味し、具体的には、以下の表に示す通りです。
レベル 要素名
実データの例1
実データの例2
実データの例3
01 都道府県名 東京都 神奈川県 栃木県
02 郡名
03 市町村名 川崎市 鹿沼市
04 区名 文京区 多摩区
05 大字・町域名 白山 菅仙谷 久保町
06 小字名
07 丁目 1 3
08 街区番号 xx xx xx
09 住居番号 yy yy
10 建物名称 Aビル
11 階数・号室 201 zz
注:上記でxx、yy、及びzzは数値を意味する。
 

4. ジオコーディングとはどんな処理か

ジオコーディングとは、住所文字列を座標に翻訳、変換する処理、技術を意味します。アドレスマッチングと呼ばれることもあります。この技術により、住所文字列と関係付けられているデータ、例えば支店の売上げデータを地図上にマッピングすることが可能です(下図参照)。


なお、ジオコーディングには逆方向の処理も考えられます。つまり、座標から最近隣の住所文字列を取得する処理です(下図参照)。

 

5. どの様なレベルの住所変換が可能なのか

変換可能なレベルは、基本的には住所辞書として利用しているデータの対応レベルに依存します。結果としては、概ね以下の通りです。
機能 変換可能なレベル
住所からの緯度経度への変換 都市計画区域内 概ね、街区番号(例えば、東京都文京区大塚5-40-18の場合は40番)レベルまで。  都市計画区域外 概ね、大字町丁目名(例えば、東京都文京区大塚5-40-18の場合は5丁目)レベルまで。
住所の正規化 基本的に住所辞書データだけではなく、住所表記内容に基づく構造推定アルゴリズムを適用して分類しているため、見かけ上、住居番号(上記の例では10号)や建物名称まで対応可能。

街区番号レベルのイメージを掴んで頂くために、街区番号レベル 及び比較の為に、その上位の丁目レベル(例えば、東京都文京区白山1)の住所辞書を地図上にプロットした結果を下図に示します。比較して頂ければ、街区番号レベルがいかに詳細な変換を意味するか御理解頂けると思います。

街区番号レベルの住所辞書(背景図として、住友電工道路地図を利用)


丁目レベルの住所辞書(背景図として、住友電工道路地図を利用)

 

6. 変換精度、性能を確認するためにはどうすれば良いのか

弊社では、自社のエンジンの機能、性能を実体験して頂くために、無料のASPサイトを運用中です。このASPサイトへは以下のボタンから、どなたでも入れます。

 

7. どんなデータを利用しているのか

eCapGCが、利用しているデータは以下の通りです。
分類 名称
提供元
用途
住所 街区レベル位置参照情報
大字・町丁目レベル位置参照情報
国土計画局総務課国土情報整備室 住所の辞書
住所 郵便番号データ 郵便事業株式会社 市町村合併履歴
数値地図25000(地名・公共施設) 国土地理院 駅(注1)
注1:駅データの作成に当たっては、国土地理院長の承認を得て、同院発行の数値地図25000(地名・公共施設)を使用している(承認番号 平20業使、第363号)。
 

8. どの様な関連サービスが提供されているのか

住所変換エンジンeCapGCを利用する関連サービスについては「こちら」をご覧下さい。
 
All Rights Reserved, Copyright © 2011 NCM