ChatPaper.aiChatPaper

Aprendizado Multiespectral Zero-Shot: Reimaginando um Modelo Generalista Multimodal Gemini 2.5 para Aplicações de Sensoriamento Remoto

Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

September 23, 2025
Autores: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI

Resumo

Imagens multiespectrais desempenham um papel crucial em diversas aplicações de Sensoriamento Remoto, incluindo classificação de uso do solo, monitoramento ambiental e planejamento urbano. Essas imagens são amplamente adotadas porque suas bandas espectrais adicionais correlacionam-se fortemente com materiais físicos no solo, como gelo, água e vegetação. Isso permite uma identificação mais precisa, e sua disponibilidade pública em missões, como Sentinel-2 e Landsat, só aumenta seu valor. Atualmente, a análise automática desses dados é predominantemente gerenciada por modelos de aprendizado de máquina especificamente treinados para entrada multiespectral, que são custosos para treinar e manter. Além disso, embora forneçam muita utilidade para o Sensoriamento Remoto, tais entradas adicionais não podem ser usadas com poderosos modelos multimodais generalistas de grande escala, que são capazes de resolver muitos problemas visuais, mas não conseguem entender sinais multiespectrais especializados. Para abordar isso, propomos uma abordagem sem necessidade de treinamento que introduz novos dados multiespectrais em um modo exclusivamente Zero-Shot, como entradas para modelos multimodais generalistas, treinados apenas com entradas RGB. Nossa abordagem aproveita o entendimento dos modelos multimodais sobre o espaço visual e propõe adaptar as entradas a esse espaço, além de injetar informações específicas do domínio como instruções no modelo. Exemplificamos essa ideia com o modelo Gemini2.5 e observamos ganhos significativos de desempenho Zero-Shot da abordagem em benchmarks populares de Sensoriamento Remoto para classificação de cobertura e uso do solo, demonstrando a fácil adaptabilidade do Gemini2.5 a novas entradas. Esses resultados destacam o potencial para profissionais de geociências, que trabalham com entradas especializadas não padronizadas, de aproveitar facilmente modelos multimodais poderosos, como o Gemini2.5, para acelerar seu trabalho, beneficiando-se de suas ricas capacidades de raciocínio e contextualização, fundamentadas em dados de sensores especializados.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing applications including land-use classification, environmental monitoring and urban planning. These images are widely adopted because their additional spectral bands correlate strongly with physical materials on the ground, such as ice, water, and vegetation. This allows for more accurate identification, and their public availability from missions, such as Sentinel-2 and Landsat, only adds to their value. Currently, the automatic analysis of such data is predominantly managed through machine learning models specifically trained for multi-spectral input, which are costly to train and support. Furthermore, although providing a lot of utility for Remote Sensing, such additional inputs cannot be used with powerful generalist large multimodal models, which are capable of solving many visual problems, but are not able to understand specialized multi-spectral signals. To address this, we propose a training-free approach which introduces new multi-spectral data in a Zero-Shot-only mode, as inputs to generalist multimodal models, trained on RGB-only inputs. Our approach leverages the multimodal models' understanding of the visual space, and proposes to adapt to inputs to that space, and to inject domain-specific information as instructions into the model. We exemplify this idea with the Gemini2.5 model and observe strong Zero-Shot performance gains of the approach on popular Remote Sensing benchmarks for land cover and land use classification and demonstrate the easy adaptability of Gemini2.5 to new inputs. These results highlight the potential for geospatial professionals, working with non-standard specialized inputs, to easily leverage powerful multimodal models, such as Gemini2.5, to accelerate their work, benefiting from their rich reasoning and contextual capabilities, grounded in the specialized sensor data.
PDF12September 24, 2025