ChatPaper.aiChatPaper

地理空間基盤モデルの最先端は誰も知らない

No One Knows the State of the Art in Geospatial Foundation Models

May 12, 2026
著者: Isaac Corley, Nils Lehmann, Caleb Robinson, Gabriel Tseng, Anthony Fuller, Hamed Alemohammad, Evan Shelhamer, Jennifer Marcus, Hannah Kerner
cs.AI

要旨

地理空間基盤モデル(GFM)は、災害対応、土地被覆マッピング、食料安全保障モニタリング、その他の重要な地球観測タスクにおいて汎用的なバックボーンとして提案されてきた。しかし、これらのモデルに関する既発表の研究では、査読者や利用者が特定のタスクにどのモデルが適合するかを判断するのに十分な情報が提供されていない。我々は、地理空間基盤モデルにおける現在の最新技術が何であるかを誰も知らないと主張する。手法自体は有用かもしれないが、GFMに関する文献では、評価、訓練・試験プロトコル、公開済み重み、事前訓練の制御が十分に標準化されておらず、モデル同士の比較や順位付けができない状態にある。152本の論文を対象とした監査では、同一モデル・ベンチマーク・プロトコルにおいて、少なくとも10ポイント以上の矛盾が46件確認された。事前訓練データが抽出可能な126本の論文のうち94本は、他の論文が使用していない設定を用いており、GFM論文の39%はモデル重みを公開していない。このようなコミュニティ標準の欠如は解決可能である。我々は6つの具体的な期待事項を提案する。すなわち、名称付きライセンスによる重み公開、共有コア評価、コピー済みと再実行済みのベースライン注釈、分散報告、共通評価ハーネスの共有、そしてデータ・アーキテクチャ・アルゴリズムの統制である。これらのギャップは調整の失敗に起因するものであり、個々の研究室の過失ではない。本論文の著者らも、GFMコミュニティの他の多くの研究者と同様に、これらの問題に加担してきた。我々は単にコミュニティを批判するのではなく、GFMの革新方法について共通理解を構築するための具体的なステップを提供することを目指す。
English
Geospatial foundation models (GFMs) have been proposed as generalizable backbones for disaster response, land-cover mapping, food-security monitoring, and other high-stakes Earth-observation tasks. Yet the published work about these models does not give reviewers or users enough information to tell which model fits a given task. We argue that nobody knows what the current state of the art is in geospatial foundation models. The methods may be useful, but the GFM literature does not standardize evaluations, training and testing protocols, released weights, or pretraining controls well enough for anyone to compare or rank them. In a 152-paper audit, we find 46 cross-paper disagreements of at least 10 points for the same model, benchmark, and protocol; 94/126 papers with extractable pretraining data use a configuration no other paper uses; and 39% of GFM papers release no model weights. This lack of community standards can be solved. We propose six concrete expectations: named-license weight release, shared core evaluations, copied-versus-rerun baseline annotations, variance reporting, one shared evaluation harness, and data-vs-architecture-vs-algorithm controls. These gaps are a coordination failure, not a fault of any individual lab; the authors of this paper, like many others in the GFM community, have contributed to them. Rather than just critiquing the community, we aim to provide concrete steps toward a shared understanding of how to innovate GFMs.