ChatPaper.aiChatPaper

Apprendimento Multi-Spettrale Zero-Shot: Ripensare un Modello Multimodale Generalista Gemini 2.5 per Applicazioni di Telerilevamento

Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

September 23, 2025
Autori: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI

Abstract

Le immagini multi-spettrali svolgono un ruolo cruciale in diverse applicazioni di telerilevamento, tra cui la classificazione dell'uso del suolo, il monitoraggio ambientale e la pianificazione urbana. Queste immagini sono ampiamente adottate perché le loro bande spettrali aggiuntive sono fortemente correlate con i materiali fisici presenti sul terreno, come ghiaccio, acqua e vegetazione. Ciò consente un'identificazione più accurata, e la loro disponibilità pubblica da missioni come Sentinel-2 e Landsat ne aumenta ulteriormente il valore. Attualmente, l'analisi automatica di tali dati è gestita principalmente attraverso modelli di machine learning appositamente addestrati per input multi-spettrali, il cui addestramento e mantenimento sono costosi. Inoltre, sebbene offrano molta utilità per il telerilevamento, tali input aggiuntivi non possono essere utilizzati con potenti modelli multimodali generalisti di grandi dimensioni, che sono in grado di risolvere molti problemi visivi ma non sono in grado di comprendere segnali multi-spettrali specializzati. Per affrontare questa problematica, proponiamo un approccio senza addestramento che introduce nuovi dati multi-spettrali in modalità esclusivamente Zero-Shot, come input per modelli multimodali generalisti addestrati su input esclusivamente RGB. Il nostro approccio sfrutta la comprensione dello spazio visivo da parte dei modelli multimodali e propone di adattare gli input a tale spazio, iniettando informazioni specifiche del dominio come istruzioni nel modello. Esemplifichiamo questa idea con il modello Gemini2.5 e osserviamo significativi miglioramenti delle prestazioni Zero-Shot dell'approccio su benchmark popolari di telerilevamento per la classificazione della copertura e dell'uso del suolo, dimostrando la facile adattabilità di Gemini2.5 a nuovi input. Questi risultati evidenziano il potenziale per i professionisti del settore geospaziale, che lavorano con input specializzati non standard, di sfruttare facilmente potenti modelli multimodali come Gemini2.5 per accelerare il loro lavoro, beneficiando delle loro ricche capacità di ragionamento e contestuali, basate sui dati specializzati dei sensori.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing applications including land-use classification, environmental monitoring and urban planning. These images are widely adopted because their additional spectral bands correlate strongly with physical materials on the ground, such as ice, water, and vegetation. This allows for more accurate identification, and their public availability from missions, such as Sentinel-2 and Landsat, only adds to their value. Currently, the automatic analysis of such data is predominantly managed through machine learning models specifically trained for multi-spectral input, which are costly to train and support. Furthermore, although providing a lot of utility for Remote Sensing, such additional inputs cannot be used with powerful generalist large multimodal models, which are capable of solving many visual problems, but are not able to understand specialized multi-spectral signals. To address this, we propose a training-free approach which introduces new multi-spectral data in a Zero-Shot-only mode, as inputs to generalist multimodal models, trained on RGB-only inputs. Our approach leverages the multimodal models' understanding of the visual space, and proposes to adapt to inputs to that space, and to inject domain-specific information as instructions into the model. We exemplify this idea with the Gemini2.5 model and observe strong Zero-Shot performance gains of the approach on popular Remote Sensing benchmarks for land cover and land use classification and demonstrate the easy adaptability of Gemini2.5 to new inputs. These results highlight the potential for geospatial professionals, working with non-standard specialized inputs, to easily leverage powerful multimodal models, such as Gemini2.5, to accelerate their work, benefiting from their rich reasoning and contextual capabilities, grounded in the specialized sensor data.
PDF12September 24, 2025