ChatPaper.aiChatPaper

Нулевое обучение в мультиспектральной области: Переосмысление универсальной мультимодальной модели Gemini 2.5 для задач дистанционного зондирования

Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications

September 23, 2025
Авторы: Ganesh Mallya, Yotam Gigi, Dahun Kim, Maxim Neumann, Genady Beryozkin, Tomer Shekel, Anelia Angelova
cs.AI

Аннотация

Мультиспектральные изображения играют ключевую роль в различных приложениях дистанционного зондирования, включая классификацию землепользования, мониторинг окружающей среды и городское планирование. Эти изображения широко используются, поскольку их дополнительные спектральные каналы тесно связаны с физическими материалами на поверхности, такими как лёд, вода и растительность. Это позволяет проводить более точную идентификацию, а их общедоступность благодаря миссиям, таким как Sentinel-2 и Landsat, только увеличивает их ценность. В настоящее время автоматический анализ таких данных в основном осуществляется с помощью моделей машинного обучения, специально обученных для работы с мультиспектральными данными, что требует значительных затрат на обучение и поддержку. Кроме того, хотя такие дополнительные данные предоставляют много возможностей для дистанционного зондирования, их нельзя использовать с мощными универсальными мультимодальными моделями, которые способны решать множество визуальных задач, но не могут интерпретировать специализированные мультиспектральные сигналы. Для решения этой проблемы мы предлагаем подход, не требующий обучения, который вводит новые мультиспектральные данные в режиме исключительно Zero-Shot в качестве входных данных для универсальных мультимодальных моделей, обученных только на RGB-данных. Наш подход использует понимание мультимодальными моделями визуального пространства и предлагает адаптировать входные данные к этому пространству, а также внедрять специализированную информацию в виде инструкций в модель. Мы демонстрируем эту идею на модели Gemini2.5 и наблюдаем значительное улучшение производительности в режиме Zero-Shot на популярных бенчмарках дистанционного зондирования для классификации земного покрова и землепользования, а также показываем лёгкую адаптируемость Gemini2.5 к новым входным данным. Эти результаты подчеркивают потенциал для специалистов в области геопространственных данных, работающих с нестандартными специализированными данными, легко использовать мощные мультимодальные модели, такие как Gemini2.5, для ускорения своей работы, извлекая выгоду из их богатых возможностей рассуждения и контекстуального анализа, основанных на специализированных данных сенсоров.
English
Multi-spectral imagery plays a crucial role in diverse Remote Sensing applications including land-use classification, environmental monitoring and urban planning. These images are widely adopted because their additional spectral bands correlate strongly with physical materials on the ground, such as ice, water, and vegetation. This allows for more accurate identification, and their public availability from missions, such as Sentinel-2 and Landsat, only adds to their value. Currently, the automatic analysis of such data is predominantly managed through machine learning models specifically trained for multi-spectral input, which are costly to train and support. Furthermore, although providing a lot of utility for Remote Sensing, such additional inputs cannot be used with powerful generalist large multimodal models, which are capable of solving many visual problems, but are not able to understand specialized multi-spectral signals. To address this, we propose a training-free approach which introduces new multi-spectral data in a Zero-Shot-only mode, as inputs to generalist multimodal models, trained on RGB-only inputs. Our approach leverages the multimodal models' understanding of the visual space, and proposes to adapt to inputs to that space, and to inject domain-specific information as instructions into the model. We exemplify this idea with the Gemini2.5 model and observe strong Zero-Shot performance gains of the approach on popular Remote Sensing benchmarks for land cover and land use classification and demonstrate the easy adaptability of Gemini2.5 to new inputs. These results highlight the potential for geospatial professionals, working with non-standard specialized inputs, to easily leverage powerful multimodal models, such as Gemini2.5, to accelerate their work, benefiting from their rich reasoning and contextual capabilities, grounded in the specialized sensor data.
PDF12September 24, 2025