ChatPaper.aiChatPaper

Aprendizaje Multiespectral de Cero Disparos: Reimaginando un Modelo Generalista Multimodal Gemini 2.5 para Aplicaciones de Teledetección

Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

September 23, 2025
Autores: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI

Resumen

Las imágenes multiespectrales desempeñan un papel crucial en diversas aplicaciones de Teledetección, como la clasificación de usos del suelo, el monitoreo ambiental y la planificación urbana. Estas imágenes son ampliamente adoptadas porque sus bandas espectrales adicionales se correlacionan fuertemente con materiales físicos en la superficie, como hielo, agua y vegetación. Esto permite una identificación más precisa, y su disponibilidad pública en misiones como Sentinel-2 y Landsat solo aumenta su valor. Actualmente, el análisis automático de estos datos se gestiona principalmente mediante modelos de aprendizaje automático específicamente entrenados para entradas multiespectrales, los cuales son costosos de entrenar y mantener. Además, aunque proporcionan mucha utilidad para la Teledetección, estas entradas adicionales no pueden utilizarse con potentes modelos multimodales generalistas, capaces de resolver muchos problemas visuales, pero incapaces de comprender señales multiespectrales especializadas. Para abordar esto, proponemos un enfoque sin entrenamiento que introduce nuevos datos multiespectrales en un modo exclusivamente Zero-Shot, como entradas para modelos multimodales generalistas entrenados únicamente con entradas RGB. Nuestro enfoque aprovecha la comprensión del espacio visual por parte de los modelos multimodales y propone adaptar las entradas a ese espacio, inyectando información específica del dominio como instrucciones en el modelo. Ejemplificamos esta idea con el modelo Gemini2.5 y observamos fuertes mejoras en el rendimiento Zero-Shot del enfoque en benchmarks populares de Teledetección para la clasificación de cobertura y uso del suelo, demostrando la fácil adaptabilidad de Gemini2.5 a nuevas entradas. Estos resultados resaltan el potencial para que los profesionales geoespaciales, que trabajan con entradas especializadas no estándar, puedan aprovechar fácilmente potentes modelos multimodales, como Gemini2.5, para acelerar su trabajo, beneficiándose de sus ricas capacidades de razonamiento y contextualización, basadas en datos de sensores especializados.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing applications including land-use classification, environmental monitoring and urban planning. These images are widely adopted because their additional spectral bands correlate strongly with physical materials on the ground, such as ice, water, and vegetation. This allows for more accurate identification, and their public availability from missions, such as Sentinel-2 and Landsat, only adds to their value. Currently, the automatic analysis of such data is predominantly managed through machine learning models specifically trained for multi-spectral input, which are costly to train and support. Furthermore, although providing a lot of utility for Remote Sensing, such additional inputs cannot be used with powerful generalist large multimodal models, which are capable of solving many visual problems, but are not able to understand specialized multi-spectral signals. To address this, we propose a training-free approach which introduces new multi-spectral data in a Zero-Shot-only mode, as inputs to generalist multimodal models, trained on RGB-only inputs. Our approach leverages the multimodal models' understanding of the visual space, and proposes to adapt to inputs to that space, and to inject domain-specific information as instructions into the model. We exemplify this idea with the Gemini2.5 model and observe strong Zero-Shot performance gains of the approach on popular Remote Sensing benchmarks for land cover and land use classification and demonstrate the easy adaptability of Gemini2.5 to new inputs. These results highlight the potential for geospatial professionals, working with non-standard specialized inputs, to easily leverage powerful multimodal models, such as Gemini2.5, to accelerate their work, benefiting from their rich reasoning and contextual capabilities, grounded in the specialized sensor data.
PDF12September 24, 2025