Агентное обучение взаимодействию по принципу пазла для улучшения визуального восприятия и логического мышления в моделях "визуальный язык"

Аннотация

Хотя современные крупные модели обработки зрения и языка (Vision-Language Models, VLMs) достигли значительных успехов в мультимодальном понимании и рассуждении, их фундаментальные перцептивные и логические способности остаются ограниченными. В частности, даже на простых задачах сборки пазлов существующие VLMs демонстрируют результаты, близкие к случайным, что выявляет недостатки в базовых способностях восприятия и рассуждения. Хотя высококачественные данные, сочетающие зрение и язык, могут улучшить эти способности, их дефицит и ограниченная масштабируемость накладывают значительные ограничения. Для решения этой проблемы мы предлагаем AGILE (Agentic jiGsaw Interaction Learning) — метод обучения через взаимодействие для улучшения визуального восприятия и рассуждения в VLMs. AGILE формулирует решение пазлов как интерактивный процесс, позволяя модели постепенно взаимодействовать с окружающей средой. На каждом шаге модель генерирует исполняемый код для выполнения действия на основе текущего состояния, а среда предоставляет детализированную визуальную обратную связь для завершения задачи. Благодаря этому итеративному циклу наблюдения и взаимодействия модель постепенно улучшает свои перцептивные и логические способности через исследование и обратную связь. Экспериментальные результаты показывают, что AGILE не только значительно повышает производительность на задачах сборки пазлов различной сложности (например, увеличивая точность с 9,5% до 82,8% в настройке 2×2), но также демонстрирует сильную обобщаемость на 9 общих задач обработки зрения, достигая среднего улучшения на 3,1%. Эти результаты указывают на заметное улучшение как перцептивных, так и логических способностей. Данная работа открывает новый путь для продвижения рассуждений и обобщения в мультимодальных моделях и предоставляет эффективное и масштабируемое решение проблемы дефицита данных для мультимодального обучения с подкреплением. Код и наборы данных доступны по адресу https://github.com/yuzeng0-0/AGILE.

English

Although current large Vision-Language Models (VLMs) have advanced in multimodal understanding and reasoning, their fundamental perceptual and reasoning abilities remain limited. Specifically, even on simple jigsaw tasks, existing VLMs perform near randomly, revealing deficiencies in core perception and reasoning capabilities. While high-quality vision-language data can enhance these capabilities, its scarcity and limited scalability impose significant constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction Learning for Enhancing visual perception and reasoning in VLMs. AGILE formulates jigsaw solving as an interactive process, enabling the model to progressively engage with the environment. At each step, the model generates executable code to perform an action based on the current state, while the environment provides fine-grained visual feedback to guide task completion. Through this iterative cycle of observation and interaction, the model incrementally improves its perceptual and reasoning capabilities via exploration and feedback. Experimental results show that AGILE not only substantially boosts performance on jigsaw tasks of varying complexity (e.g., increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also demonstrates strong generalization across 9 general vision tasks, achieving an average improvement of 3.1%. These results indicate notable enhancements in both perceptual and reasoning abilities. This work opens a new avenue for advancing reasoning and generalization in multimodal models and provides an efficient, scalable solution to the scarcity of multimodal reinforcement learning data. The code and datasets is available at https://github.com/yuzeng0-0/AGILE .

Агентное обучение взаимодействию по принципу пазла для улучшения визуального восприятия и логического мышления в моделях "визуальный язык"

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models

Аннотация

Support