Aprendizado de Interação Agêntica em Quebra-Cabeças para Aprimorar a Percepção Visual e o Raciocínio em Modelos de Visão e Linguagem
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
October 1, 2025
Autores: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
cs.AI
Resumo
Embora os atuais Modelos de Visão e Linguagem de Grande Escala (VLMs) tenham avançado na compreensão e raciocínio multimodal, suas habilidades fundamentais de percepção e raciocínio permanecem limitadas. Especificamente, mesmo em tarefas simples de quebra-cabeças, os VLMs existentes apresentam desempenho próximo ao aleatório, revelando deficiências nas capacidades centrais de percepção e raciocínio. Embora dados de alta qualidade de visão e linguagem possam aprimorar essas capacidades, sua escassez e escalabilidade limitada impõem restrições significativas. Para abordar isso, propomos o AGILE, uma Aprendizagem Interativa de Quebra-Cabeças Agente para Aprimorar a percepção visual e o raciocínio em VLMs. O AGILE formula a resolução de quebra-cabeças como um processo interativo, permitindo que o modelo se envolva progressivamente com o ambiente. A cada passo, o modelo gera código executável para realizar uma ação com base no estado atual, enquanto o ambiente fornece feedback visual detalhado para orientar a conclusão da tarefa. Através desse ciclo iterativo de observação e interação, o modelo melhora incrementalmente suas capacidades de percepção e raciocínio por meio de exploração e feedback. Resultados experimentais mostram que o AGILE não apenas aumenta substancialmente o desempenho em tarefas de quebra-cabeças de variada complexidade (por exemplo, aumentando a precisão de 9,5% para 82,8% na configuração 2 vezes 2), mas também demonstra forte generalização em 9 tarefas gerais de visão, alcançando uma melhoria média de 3,1%. Esses resultados indicam aprimoramentos notáveis tanto nas habilidades de percepção quanto de raciocínio. Este trabalho abre uma nova via para avançar o raciocínio e a generalização em modelos multimodais e fornece uma solução eficiente e escalável para a escassez de dados de aprendizado por reforço multimodal. O código e os conjuntos de dados estão disponíveis em https://github.com/yuzeng0-0/AGILE.
English
Although current large Vision-Language Models (VLMs) have advanced in
multimodal understanding and reasoning, their fundamental perceptual and
reasoning abilities remain limited. Specifically, even on simple jigsaw tasks,
existing VLMs perform near randomly, revealing deficiencies in core perception
and reasoning capabilities. While high-quality vision-language data can enhance
these capabilities, its scarcity and limited scalability impose significant
constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction
Learning for Enhancing visual perception and reasoning in VLMs. AGILE
formulates jigsaw solving as an interactive process, enabling the model to
progressively engage with the environment. At each step, the model generates
executable code to perform an action based on the current state, while the
environment provides fine-grained visual feedback to guide task completion.
Through this iterative cycle of observation and interaction, the model
incrementally improves its perceptual and reasoning capabilities via
exploration and feedback. Experimental results show that AGILE not only
substantially boosts performance on jigsaw tasks of varying complexity (e.g.,
increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also
demonstrates strong generalization across 9 general vision tasks, achieving an
average improvement of 3.1%. These results indicate notable enhancements in
both perceptual and reasoning abilities. This work opens a new avenue for
advancing reasoning and generalization in multimodal models and provides an
efficient, scalable solution to the scarcity of multimodal reinforcement
learning data. The code and datasets is available at
https://github.com/yuzeng0-0/AGILE .