Zero-Shot Multi-Spektrale Lernverfahren: Neugestaltung eines generalistischen multimodalen Gemini 2.5-Modells für Fernerkundungsanwendungen
Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
September 23, 2025
papers.authors: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI
papers.abstract
Multispektrale Bilddaten spielen eine entscheidende Rolle in verschiedenen Anwendungen der Fernerkundung, einschließlich der Landnutzungsklassifizierung, Umweltüberwachung und Stadtplanung. Diese Bilder werden häufig verwendet, da ihre zusätzlichen Spektralbänder stark mit physischen Materialien auf der Erde korrelieren, wie beispielsweise Eis, Wasser und Vegetation. Dies ermöglicht eine genauere Identifikation, und ihre öffentliche Verfügbarkeit durch Missionen wie Sentinel-2 und Landsat erhöht ihren Wert zusätzlich. Derzeit wird die automatische Analyse solcher Daten hauptsächlich durch speziell für multispektrale Eingaben trainierte maschinelle Lernmodelle durchgeführt, deren Training und Unterstützung jedoch kostspielig ist. Darüber hinaus können diese zusätzlichen Eingaben, obwohl sie für die Fernerkundung sehr nützlich sind, nicht mit leistungsstarken generalistischen multimodalen Großmodellen verwendet werden, die zwar viele visuelle Probleme lösen können, aber nicht in der Lage sind, spezialisierte multispektrale Signale zu verstehen.
Um dies zu adressieren, schlagen wir einen trainingsfreien Ansatz vor, der neue multispektrale Daten in einem reinen Zero-Shot-Modus als Eingaben für generalistische multimodale Modelle einführt, die ausschließlich auf RGB-Eingaben trainiert wurden. Unser Ansatz nutzt das Verständnis der multimodalen Modelle für den visuellen Raum und schlägt vor, die Eingaben an diesen Raum anzupassen und domänenspezifische Informationen als Anweisungen in das Modell zu injizieren. Wir veranschaulichen diese Idee mit dem Gemini2.5-Modell und beobachten deutliche Leistungssteigerungen im Zero-Shot-Betrieb auf populären Fernerkundungs-Benchmarks für die Landbedeckungs- und Landnutzungsklassifizierung. Zudem demonstrieren wir die einfache Anpassungsfähigkeit von Gemini2.5 an neue Eingaben. Diese Ergebnisse unterstreichen das Potenzial für Geodatenexperten, die mit nicht-standardisierten spezialisierten Eingaben arbeiten, leistungsstarke multimodale Modelle wie Gemini2.5 einfach zu nutzen, um ihre Arbeit zu beschleunigen und von deren umfangreichen Schlussfolgerungs- und Kontextfähigkeiten zu profitieren, die auf den spezialisierten Sensordaten basieren.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing
applications including land-use classification, environmental monitoring and
urban planning. These images are widely adopted because their additional
spectral bands correlate strongly with physical materials on the ground, such
as ice, water, and vegetation. This allows for more accurate identification,
and their public availability from missions, such as Sentinel-2 and Landsat,
only adds to their value. Currently, the automatic analysis of such data is
predominantly managed through machine learning models specifically trained for
multi-spectral input, which are costly to train and support. Furthermore,
although providing a lot of utility for Remote Sensing, such additional inputs
cannot be used with powerful generalist large multimodal models, which are
capable of solving many visual problems, but are not able to understand
specialized multi-spectral signals.
To address this, we propose a training-free approach which introduces new
multi-spectral data in a Zero-Shot-only mode, as inputs to generalist
multimodal models, trained on RGB-only inputs. Our approach leverages the
multimodal models' understanding of the visual space, and proposes to adapt to
inputs to that space, and to inject domain-specific information as instructions
into the model. We exemplify this idea with the Gemini2.5 model and observe
strong Zero-Shot performance gains of the approach on popular Remote Sensing
benchmarks for land cover and land use classification and demonstrate the easy
adaptability of Gemini2.5 to new inputs. These results highlight the potential
for geospatial professionals, working with non-standard specialized inputs, to
easily leverage powerful multimodal models, such as Gemini2.5, to accelerate
their work, benefiting from their rich reasoning and contextual capabilities,
grounded in the specialized sensor data.