ゼロショットマルチスペクトル学習:リモートセンシング応用のための汎用マルチモーダルGemini 2.5モデルの再構築
Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
September 23, 2025
著者: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI
要旨
マルチスペクトル画像は、土地利用分類、環境モニタリング、都市計画など、多様なリモートセンシングアプリケーションにおいて重要な役割を果たしています。これらの画像は、追加のスペクトルバンドが氷、水、植生などの地上の物理的物質と強く相関しているため、広く採用されています。これにより、より正確な識別が可能となり、Sentinel-2やLandsatなどのミッションから公開されていることもその価値を高めています。現在、このようなデータの自動分析は、主にマルチスペクトル入力用に特別に訓練された機械学習モデルによって管理されていますが、これらのモデルの訓練とサポートにはコストがかかります。さらに、リモートセンシングにおいて多くの有用性を提供するものの、このような追加の入力は、多くの視覚的問題を解決できるが専門的なマルチスペクトル信号を理解できない強力な汎用大規模マルチモーダルモデルでは使用できません。
この問題に対処するため、我々は、RGBのみの入力で訓練された汎用マルチモーダルモデルに対して、ゼロショットのみのモードで新しいマルチスペクトルデータを入力として導入する訓練不要のアプローチを提案します。我々のアプローチは、マルチモーダルモデルの視覚空間に対する理解を活用し、その空間への入力に適応し、ドメイン固有の情報を指示としてモデルに注入することを提案します。このアイデアをGemini2.5モデルで例示し、土地利用分類や土地被覆分類のための人気のあるリモートセンシングベンチマークにおいて、このアプローチの強力なゼロショット性能向上を観察し、Gemini2.5が新しい入力に容易に適応できることを実証します。これらの結果は、非標準的な専門的な入力を扱う地理空間専門家が、Gemini2.5のような強力なマルチモーダルモデルを容易に活用し、専門的なセンサーデータに基づいた豊かな推論と文脈能力を活用して作業を加速できる可能性を示しています。
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing
applications including land-use classification, environmental monitoring and
urban planning. These images are widely adopted because their additional
spectral bands correlate strongly with physical materials on the ground, such
as ice, water, and vegetation. This allows for more accurate identification,
and their public availability from missions, such as Sentinel-2 and Landsat,
only adds to their value. Currently, the automatic analysis of such data is
predominantly managed through machine learning models specifically trained for
multi-spectral input, which are costly to train and support. Furthermore,
although providing a lot of utility for Remote Sensing, such additional inputs
cannot be used with powerful generalist large multimodal models, which are
capable of solving many visual problems, but are not able to understand
specialized multi-spectral signals.
To address this, we propose a training-free approach which introduces new
multi-spectral data in a Zero-Shot-only mode, as inputs to generalist
multimodal models, trained on RGB-only inputs. Our approach leverages the
multimodal models' understanding of the visual space, and proposes to adapt to
inputs to that space, and to inject domain-specific information as instructions
into the model. We exemplify this idea with the Gemini2.5 model and observe
strong Zero-Shot performance gains of the approach on popular Remote Sensing
benchmarks for land cover and land use classification and demonstrate the easy
adaptability of Gemini2.5 to new inputs. These results highlight the potential
for geospatial professionals, working with non-standard specialized inputs, to
easily leverage powerful multimodal models, such as Gemini2.5, to accelerate
their work, benefiting from their rich reasoning and contextual capabilities,
grounded in the specialized sensor data.