JA:MLIT ISJ/import2019 outline

From OpenStreetMap Wiki
Jump to navigation Jump to search

Ichi Sansho Joho Import 2019 is an import of Ichi Sansho Joho (also called ISJ) dataset which is of type node covering (broad location in Japan). The import is currently 2019 September at the planning stage.

位置参照情報インポート2019/Ichi Sansho Joho Import 2019 は、日本全国を対象とするインポート編集であり、ノード・タイプで構成される位置参照情報(別名: ISJ)データセットのインポートを目的としています。このインポートは2019年9月現在、計画ステージです。

目的

位置参照情報(ISJ)データセットは、非常に信頼性が高く、位置の正確な、日本の地名に関するデータセットです。このデータセットに含まれるのは行政地名のみであり、自然地名は含まれません。

このインポートの目的は、ISJデータを利用して日本国内の地名データのカバレッジを向上させることにあります。

また、このインポートを行うことにより、日本国内に存在する地名データの記述統一(ノーマリゼーション)も改善します。

スケジュール

インポート対象となる自治体(データファイル)の総数: 1909

  • 2021/04/XX インポートデータと既存データのマージ作業が必要ない自治体を対象に作業実施(対象数: 514)
  • 2021/05/XX インポートデータと既存データのマージ作業が必要で、マージ対象データ数が30以下の自治体を対象に作業実施(対象数: 748)
  • 2021/05/XX インポートデータと既存データのマージ作業が必要で、マージ対象データ数が100以下の自治体を対象に作業実施(対象数: 407)
  • 2021/06/XX インポートデータと既存データのマージ作業が必要で、マージ対象データ数が100より多い自治体に対し、作業を実施するかを検討(対象数: 237)

TBD for detail.

インポート対象データ

背景

元データ配布サイト: http://nlftp.mlit.go.jp/isj/index.html
データライセンス: http://nlftp.mlit.go.jp/isj/agreement.html
ライセンス種別 (該当する場合): オリジナル。CC-BY(出典明示)に類似
利用許可へのリンク (必要な場合): OSMFJはこのデータセットの利用について、2012年に許諾をもらっています
OSMでの出典明記 (必要な場合): http://wiki.openstreetmap.org/wiki/Contributors#ISJ
ODbLとの互換性確認: 問題なし

OSMデータファイル

インポート種別

これは一度きりのインポートです。

データ準備

データ量削減 & 簡素化

データ量の削減および簡素化についての計画はありません。

タグ付与計画

""大字・町丁目レベル位置参照情報"のデータセットは以下のデータスキーマを有しています。

> 出典: http://nlftp.mlit.go.jp/isj/data.html

項目 定義 記述例 OSM Tagging
都道府県コード JIS都道府県コード "13" 利用せず。都道府県番号
都道府県名 当該範囲の都道府県名 "東京都" 利用せず。都道府県の名称
市区町村コード JIS市区町村コード "13101" 利用せず。市町村番号
市区町村名 当該範囲の市区町村名
(郡部は郡名,政令指定都市の区名も含む)
"千代田区" 利用せず。市町村の名称
大字町丁目コード 大字町丁目コード
(JIS市区町村コード+独自7桁)
"131010005002" 利用せず。本データセット特有の、大字・町丁目に与えられるユニークなID。
大字町丁目名 当該範囲の大字・町丁目名
(町丁目の数字は漢数字)
"霞が関二丁目" name=*
大字・小字・丁目の名称。
緯度 十進経緯度(単位:度、小数点以下第6位まで、半角) "35.676155" 緯度(latitude)
経度 十進経緯度(単位:度、小数点以下第6位まで、半角) "139.751075" 経度(longitude)
原典資料 大字・町丁目位置参照情報作成における原典資料を表すコード
1:自治体資料、2:街区レベル位置参照情報、3:1/25000地形図、0:その他資料
"1" 利用せず。位置参照情報を作成する際に参照したデータの種別。位置の正確性に影響する
カテゴリ 大字/字/丁目の区別を表すコード
1:大字、2:字、3:丁目、0:不明(通称)
"3" 1: place=quarter (大字・Major neighborhood)
2: place=neighbourhood (小字・Minor neighborhood)
3: place=neighbourhood (小字・Minor neighborhood)
4: place=neighbourhood (不明、あるいは通称地名。すべて京都における地名)

place=quarter と neighborhood、どちら?

日本におけるquarterとneighbourhoodの地名構造は、以下のように定められています。

大字・町 place=quarter admin_level=9
字・小字・丁目 place=neighbourhood admin_level=10

この定義によれば、`丁目` (カテゴリ3)は、2つの階層(quarterとneighbourhood)に分割されることが定められています。

しかし、今回のインポートにおいては `丁目`の項目を2つに分割せず、作業を行います。理由は以下のとおりです。

分割可能性に関する課題

  1. "志布志町志布志一丁目" のように、単純に "丁目" を境に分割することのできない地名の問題
  2. 北海道に存在する "北1条西2丁目" のように、地域で認識される分割と、行政が通例として利用する分割の区分の違い (参照: talk-ja投稿)

作業手順上の課題

  1. quarterとneightbourhoodに分割した際には、boundaryリレーションとして必ず階層構造を、role:subarea によって表現する必要があります
  2. boundaryリレーションを作成するためには、そのboundaryを表現する行政境界ポリゴンが必要になります(placeノードがrole: labelになります)
  3. 現在、町丁目のポリゴンとして適切なポリゴンが、オープンデータとして全国的に公開されている状態にありません(eStatの境界は統計用の境界なので、厳密には異なるデータ)
  4. リレーションとして紐づけできない以上、「一丁目」などと分割してしまうことで、その「一丁目」がどのquarterに所属するのか、表現することが困難になります
  5. 今後、丁目レベルの行政区ポリゴンが公開されているところから順に、丁目ポリゴンインポート(別作業)を行うのと同時に、リレーションを利用した構造化を実施すればよいと考えます

変更セットタグ付与

データ変換

元データはCSV形式で配布されています。メタデータは以下のとおりです。

  • 文字エンコード: Shift-JIS
  • EPSG: 4612, 世界測地系(日本測地系2000)

Describe the transformations you'll need to conduct, the tools you're using, and any specific configurations or code that will be used in the transformation. TBD

データ変換結果

データ変換結果のサンプルについては、Githubに配置されています。

データのマージに関するワークフロー

チーム活動計画

At this time, only user:nyampire will do import tasks.

Possible account is followings

Aside from the import tasks, user:okadatsuneo is working trace tasks.

His working account is following.

And his working list and import procedure are described in this page.

user:nyampire and user:okadatsuneo is having continuous contacts on the Slack channel.

参照情報

当然のことながら、日本地域には既存の place=[quater, neighborhood or hamlet] データが存在します。

Place nodes in Japan.png

作業対象を明確化するため、user:nyampireは、インポート対象のデータが重複する可能性がある自治体の一覧を作成しました。

以下の一覧では、自治体の区域内に place=[quater, neighborhood or hamlet] が含まれる数が明示されています。

place = hamlet in Japan region

日本OSMにおける編集の歴史的な経緯から、小字・丁目レベルのノードに対して place=hamletが過去に利用されていました。

そのため、neighborhoodと同様に、これらのノードに対しても対応を行う必要があります。

ワークフローとデータ合成

以下の別ページにまとめています。

変更セットの大きさ

これはノードデータのインポートですので、変更セットのサイズはそこまで大きくならないはずです。

作業対象となるノードの数は、多い自治体で以下のとおりです。

  • number; filename
  • 1058; 01102_札幌市北区.csv
  • 1106; 01103_札幌市東区.csv
  • 1207; 23211_豊田市.csv
  • 1281; 16201_富山市.csv
  • 1579; 01207_帯広市.csv
  • 2144; 21201_岐阜市.csv
  • 2274; 01204_旭川市.csv


1変更セットにつき、2500ノードを超える場合は2つ以上の変更セットに分割を行います。

リバート計画

なにか問題が発生した場合、user:nyampireがリバートを担当します。

品質管理

インポート作業完了後、OpenRefineを利用した品質管理を行い、重複やエラーを取り除くことを検討しています。

追加情報

The email to the Imports mailing list was sent on 2021-04-02 and can be found in the archives of the mailing list at [1].