ChatPaper.aiChatPaper

Apprentissage Multi-Spectral Zero-Shot : Réinventer un Modèle Multimodal Généraliste Gemini 2.5 pour les Applications de Télédétection

Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

September 23, 2025
papers.authors: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI

papers.abstract

L'imagerie multi-spectrale joue un rôle crucial dans diverses applications de télédétection, notamment la classification de l'occupation des sols, la surveillance environnementale et l'urbanisme. Ces images sont largement adoptées car leurs bandes spectrales supplémentaires sont fortement corrélées avec les matériaux physiques au sol, tels que la glace, l'eau et la végétation. Cela permet une identification plus précise, et leur disponibilité publique grâce à des missions comme Sentinel-2 et Landsat ne fait qu'ajouter à leur valeur. Actuellement, l'analyse automatique de ces données est principalement gérée par des modèles d'apprentissage automatique spécifiquement entraînés pour des entrées multi-spectrales, dont l'entraînement et le support sont coûteux. De plus, bien qu'elles offrent une grande utilité pour la télédétection, ces entrées supplémentaires ne peuvent pas être utilisées avec des modèles multimodaux généralistes puissants, capables de résoudre de nombreux problèmes visuels, mais incapables de comprendre les signaux multi-spectraux spécialisés. Pour remédier à cela, nous proposons une approche sans entraînement qui introduit de nouvelles données multi-spectrales en mode Zero-Shot uniquement, comme entrées pour des modèles multimodaux généralistes, entraînés sur des entrées RGB uniquement. Notre approche exploite la compréhension de l'espace visuel par les modèles multimodaux, et propose de s'adapter à ces entrées dans cet espace, et d'injecter des informations spécifiques au domaine sous forme d'instructions dans le modèle. Nous illustrons cette idée avec le modèle Gemini2.5 et observons des gains significatifs de performance en Zero-Shot sur des benchmarks populaires de télédétection pour la classification de l'occupation et de l'utilisation des sols, démontrant ainsi la facilité d'adaptation de Gemini2.5 à de nouvelles entrées. Ces résultats mettent en évidence le potentiel pour les professionnels de la géospatiale, travaillant avec des entrées spécialisées non standard, de tirer facilement parti de modèles multimodaux puissants, comme Gemini2.5, pour accélérer leur travail, en bénéficiant de leurs riches capacités de raisonnement et contextuelles, ancrées dans les données de capteurs spécialisées.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing applications including land-use classification, environmental monitoring and urban planning. These images are widely adopted because their additional spectral bands correlate strongly with physical materials on the ground, such as ice, water, and vegetation. This allows for more accurate identification, and their public availability from missions, such as Sentinel-2 and Landsat, only adds to their value. Currently, the automatic analysis of such data is predominantly managed through machine learning models specifically trained for multi-spectral input, which are costly to train and support. Furthermore, although providing a lot of utility for Remote Sensing, such additional inputs cannot be used with powerful generalist large multimodal models, which are capable of solving many visual problems, but are not able to understand specialized multi-spectral signals. To address this, we propose a training-free approach which introduces new multi-spectral data in a Zero-Shot-only mode, as inputs to generalist multimodal models, trained on RGB-only inputs. Our approach leverages the multimodal models' understanding of the visual space, and proposes to adapt to inputs to that space, and to inject domain-specific information as instructions into the model. We exemplify this idea with the Gemini2.5 model and observe strong Zero-Shot performance gains of the approach on popular Remote Sensing benchmarks for land cover and land use classification and demonstrate the easy adaptability of Gemini2.5 to new inputs. These results highlight the potential for geospatial professionals, working with non-standard specialized inputs, to easily leverage powerful multimodal models, such as Gemini2.5, to accelerate their work, benefiting from their rich reasoning and contextual capabilities, grounded in the specialized sensor data.
PDF12September 24, 2025