Zero-Shot Multi-Spectrale Leren: Het Heruitvinden van een Generalistisch Multimodaal Gemini 2.5 Model voor Remote Sensing Toepassingen
Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
September 23, 2025
Auteurs: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI
Samenvatting
Multi-spectrale beeldvorming speelt een cruciale rol in diverse Remote Sensing-toepassingen, waaronder landgebruikclassificatie, milieumonitoring en stadsplanning. Deze beelden worden veelvuldig gebruikt omdat hun aanvullende spectrale banden sterk correleren met fysieke materialen op de grond, zoals ijs, water en vegetatie. Dit maakt een nauwkeurigere identificatie mogelijk, en hun publieke beschikbaarheid vanuit missies zoals Sentinel-2 en Landsat verhoogt hun waarde nog verder. Momenteel wordt de automatische analyse van dergelijke data voornamelijk uitgevoerd door machine learning-modellen die specifiek zijn getraind voor multi-spectrale input, wat kostbaar is om te trainen en te onderhouden. Bovendien kunnen, hoewel ze veel nut bieden voor Remote Sensing, dergelijke aanvullende inputs niet worden gebruikt met krachtige generalistische grote multimodale modellen, die in staat zijn om veel visuele problemen op te lossen, maar niet in staat zijn om gespecialiseerde multi-spectrale signalen te begrijpen.
Om dit aan te pakken, stellen we een trainingsvrije benadering voor die nieuwe multi-spectrale data introduceert in een Zero-Shot-modus, als inputs voor generalistische multimodale modellen die zijn getraind op alleen RGB-inputs. Onze benadering maakt gebruik van het begrip van de multimodale modellen van de visuele ruimte en stelt voor om inputs aan te passen aan die ruimte, en domeinspecifieke informatie als instructies in het model te injecteren. We illustreren dit idee met het Gemini2.5-model en observeren sterke Zero-Shot prestatieverbeteringen van de benadering op populaire Remote Sensing-benchmarks voor landbedekking en landgebruikclassificatie, en demonstreren de eenvoudige aanpasbaarheid van Gemini2.5 aan nieuwe inputs. Deze resultaten benadrukken het potentieel voor geospatiale professionals, die werken met niet-standaard gespecialiseerde inputs, om eenvoudig krachtige multimodale modellen zoals Gemini2.5 te benutten om hun werk te versnellen, waarbij ze profiteren van hun rijke redeneer- en contextuele mogelijkheden, gebaseerd op de gespecialiseerde sensordata.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing
applications including land-use classification, environmental monitoring and
urban planning. These images are widely adopted because their additional
spectral bands correlate strongly with physical materials on the ground, such
as ice, water, and vegetation. This allows for more accurate identification,
and their public availability from missions, such as Sentinel-2 and Landsat,
only adds to their value. Currently, the automatic analysis of such data is
predominantly managed through machine learning models specifically trained for
multi-spectral input, which are costly to train and support. Furthermore,
although providing a lot of utility for Remote Sensing, such additional inputs
cannot be used with powerful generalist large multimodal models, which are
capable of solving many visual problems, but are not able to understand
specialized multi-spectral signals.
To address this, we propose a training-free approach which introduces new
multi-spectral data in a Zero-Shot-only mode, as inputs to generalist
multimodal models, trained on RGB-only inputs. Our approach leverages the
multimodal models' understanding of the visual space, and proposes to adapt to
inputs to that space, and to inject domain-specific information as instructions
into the model. We exemplify this idea with the Gemini2.5 model and observe
strong Zero-Shot performance gains of the approach on popular Remote Sensing
benchmarks for land cover and land use classification and demonstrate the easy
adaptability of Gemini2.5 to new inputs. These results highlight the potential
for geospatial professionals, working with non-standard specialized inputs, to
easily leverage powerful multimodal models, such as Gemini2.5, to accelerate
their work, benefiting from their rich reasoning and contextual capabilities,
grounded in the specialized sensor data.