超簡易的な住所文字列の処理系を作った

住所文字列の表記揺れを目視で確認する作業が発生して、衝動に任せて作った代物です。コードを読んでいただけばわかりますけど抜けだらけです(ジオコーダ作るときの指標ぐらいにはなるかも)。

このコードは住所文字列のCSVを読み込んで、都道府県/市区町村/大字/町丁目/それ以外 の列として切り出します。必要なものは市区町村、大字、町丁目の辞書データです(これは./address_base/以下に格納)。また、表記揺れを解消するための辞書を読み込む機能を作っています。これは作業フォルダ以下(./WordDictionary/WordDictionary.csv)においてあり、修正前文字列/修正後文字列をCSVの形で持っています(「粕屋郡,糟屋郡」みたいなCSVです)。

続きを読む

スポンサード リンク