Агентное обучение взаимодействию по принципу пазла для улучшения визуального восприятия и логического мышления в моделях "визуальный язык"
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
October 1, 2025
Авторы: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
cs.AI
Аннотация
Хотя современные крупные модели обработки зрения и языка (Vision-Language Models, VLMs) достигли значительных успехов в мультимодальном понимании и рассуждении, их фундаментальные перцептивные и логические способности остаются ограниченными. В частности, даже на простых задачах сборки пазлов существующие VLMs демонстрируют результаты, близкие к случайным, что выявляет недостатки в базовых способностях восприятия и рассуждения. Хотя высококачественные данные, сочетающие зрение и язык, могут улучшить эти способности, их дефицит и ограниченная масштабируемость накладывают значительные ограничения. Для решения этой проблемы мы предлагаем AGILE (Agentic jiGsaw Interaction Learning) — метод обучения через взаимодействие для улучшения визуального восприятия и рассуждения в VLMs. AGILE формулирует решение пазлов как интерактивный процесс, позволяя модели постепенно взаимодействовать с окружающей средой. На каждом шаге модель генерирует исполняемый код для выполнения действия на основе текущего состояния, а среда предоставляет детализированную визуальную обратную связь для завершения задачи. Благодаря этому итеративному циклу наблюдения и взаимодействия модель постепенно улучшает свои перцептивные и логические способности через исследование и обратную связь. Экспериментальные результаты показывают, что AGILE не только значительно повышает производительность на задачах сборки пазлов различной сложности (например, увеличивая точность с 9,5% до 82,8% в настройке 2×2), но также демонстрирует сильную обобщаемость на 9 общих задач обработки зрения, достигая среднего улучшения на 3,1%. Эти результаты указывают на заметное улучшение как перцептивных, так и логических способностей. Данная работа открывает новый путь для продвижения рассуждений и обобщения в мультимодальных моделях и предоставляет эффективное и масштабируемое решение проблемы дефицита данных для мультимодального обучения с подкреплением. Код и наборы данных доступны по адресу https://github.com/yuzeng0-0/AGILE.
English
Although current large Vision-Language Models (VLMs) have advanced in
multimodal understanding and reasoning, their fundamental perceptual and
reasoning abilities remain limited. Specifically, even on simple jigsaw tasks,
existing VLMs perform near randomly, revealing deficiencies in core perception
and reasoning capabilities. While high-quality vision-language data can enhance
these capabilities, its scarcity and limited scalability impose significant
constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction
Learning for Enhancing visual perception and reasoning in VLMs. AGILE
formulates jigsaw solving as an interactive process, enabling the model to
progressively engage with the environment. At each step, the model generates
executable code to perform an action based on the current state, while the
environment provides fine-grained visual feedback to guide task completion.
Through this iterative cycle of observation and interaction, the model
incrementally improves its perceptual and reasoning capabilities via
exploration and feedback. Experimental results show that AGILE not only
substantially boosts performance on jigsaw tasks of varying complexity (e.g.,
increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also
demonstrates strong generalization across 9 general vision tasks, achieving an
average improvement of 3.1%. These results indicate notable enhancements in
both perceptual and reasoning abilities. This work opens a new avenue for
advancing reasoning and generalization in multimodal models and provides an
efficient, scalable solution to the scarcity of multimodal reinforcement
learning data. The code and datasets is available at
https://github.com/yuzeng0-0/AGILE .