Apprendimento Multi-Spettrale Zero-Shot: Ripensare un Modello Multimodale Generalista Gemini 2.5 per Applicazioni di Telerilevamento
Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications
September 23, 2025
Autori: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI
Abstract
Le immagini multi-spettrali svolgono un ruolo cruciale in diverse applicazioni di telerilevamento, tra cui la classificazione dell'uso del suolo, il monitoraggio ambientale e la pianificazione urbana. Queste immagini sono ampiamente adottate perché le loro bande spettrali aggiuntive sono fortemente correlate con i materiali fisici presenti sul terreno, come ghiaccio, acqua e vegetazione. Ciò consente un'identificazione più accurata, e la loro disponibilità pubblica da missioni come Sentinel-2 e Landsat ne aumenta ulteriormente il valore. Attualmente, l'analisi automatica di tali dati è gestita principalmente attraverso modelli di machine learning appositamente addestrati per input multi-spettrali, il cui addestramento e mantenimento sono costosi. Inoltre, sebbene offrano molta utilità per il telerilevamento, tali input aggiuntivi non possono essere utilizzati con potenti modelli multimodali generalisti di grandi dimensioni, che sono in grado di risolvere molti problemi visivi ma non sono in grado di comprendere segnali multi-spettrali specializzati.
Per affrontare questa problematica, proponiamo un approccio senza addestramento che introduce nuovi dati multi-spettrali in modalità esclusivamente Zero-Shot, come input per modelli multimodali generalisti addestrati su input esclusivamente RGB. Il nostro approccio sfrutta la comprensione dello spazio visivo da parte dei modelli multimodali e propone di adattare gli input a tale spazio, iniettando informazioni specifiche del dominio come istruzioni nel modello. Esemplifichiamo questa idea con il modello Gemini2.5 e osserviamo significativi miglioramenti delle prestazioni Zero-Shot dell'approccio su benchmark popolari di telerilevamento per la classificazione della copertura e dell'uso del suolo, dimostrando la facile adattabilità di Gemini2.5 a nuovi input. Questi risultati evidenziano il potenziale per i professionisti del settore geospaziale, che lavorano con input specializzati non standard, di sfruttare facilmente potenti modelli multimodali come Gemini2.5 per accelerare il loro lavoro, beneficiando delle loro ricche capacità di ragionamento e contestuali, basate sui dati specializzati dei sensori.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing
applications including land-use classification, environmental monitoring and
urban planning. These images are widely adopted because their additional
spectral bands correlate strongly with physical materials on the ground, such
as ice, water, and vegetation. This allows for more accurate identification,
and their public availability from missions, such as Sentinel-2 and Landsat,
only adds to their value. Currently, the automatic analysis of such data is
predominantly managed through machine learning models specifically trained for
multi-spectral input, which are costly to train and support. Furthermore,
although providing a lot of utility for Remote Sensing, such additional inputs
cannot be used with powerful generalist large multimodal models, which are
capable of solving many visual problems, but are not able to understand
specialized multi-spectral signals.
To address this, we propose a training-free approach which introduces new
multi-spectral data in a Zero-Shot-only mode, as inputs to generalist
multimodal models, trained on RGB-only inputs. Our approach leverages the
multimodal models' understanding of the visual space, and proposes to adapt to
inputs to that space, and to inject domain-specific information as instructions
into the model. We exemplify this idea with the Gemini2.5 model and observe
strong Zero-Shot performance gains of the approach on popular Remote Sensing
benchmarks for land cover and land use classification and demonstrate the easy
adaptability of Gemini2.5 to new inputs. These results highlight the potential
for geospatial professionals, working with non-standard specialized inputs, to
easily leverage powerful multimodal models, such as Gemini2.5, to accelerate
their work, benefiting from their rich reasoning and contextual capabilities,
grounded in the specialized sensor data.