Aprendizaje de Interacción de Rompecabezas Agéntico para Mejorar la Percepción Visual y el Razonamiento en Modelos de Visión y Lenguaje
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
October 1, 2025
Autores: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
cs.AI
Resumen
Aunque los actuales Modelos de Visión-Lenguaje (VLMs) de gran escala han avanzado en la comprensión y razonamiento multimodal, sus capacidades fundamentales de percepción y razonamiento siguen siendo limitadas. Específicamente, incluso en tareas simples de rompecabezas, los VLMs existentes desempeñan un comportamiento cercano al azar, revelando deficiencias en las capacidades básicas de percepción y razonamiento. Si bien los datos de alta calidad en visión-lenguaje pueden mejorar estas capacidades, su escasez y la limitada escalabilidad imponen restricciones significativas. Para abordar esto, proponemos AGILE, un Aprendizaje de Interacción Agente en Rompecabezas (Agentic jiGsaw Interaction Learning) para mejorar la percepción visual y el razonamiento en VLMs. AGILE formula la resolución de rompecabezas como un proceso interactivo, permitiendo que el modelo se involucre progresivamente con el entorno. En cada paso, el modelo genera código ejecutable para realizar una acción basada en el estado actual, mientras que el entorno proporciona retroalimentación visual detallada para guiar la finalización de la tarea. A través de este ciclo iterativo de observación e interacción, el modelo mejora incrementalmente sus capacidades de percepción y razonamiento mediante la exploración y la retroalimentación. Los resultados experimentales muestran que AGILE no solo aumenta sustancialmente el rendimiento en tareas de rompecabezas de diversa complejidad (por ejemplo, aumentando la precisión del 9.5% al 82.8% en la configuración de 2 por 2), sino que también demuestra una fuerte generalización en 9 tareas generales de visión, logrando una mejora promedio del 3.1%. Estos resultados indican mejoras notables tanto en las habilidades de percepción como de razonamiento. Este trabajo abre una nueva vía para avanzar en el razonamiento y la generalización en modelos multimodales y proporciona una solución eficiente y escalable a la escasez de datos de aprendizaje por refuerzo multimodal. El código y los conjuntos de datos están disponibles en https://github.com/yuzeng0-0/AGILE.
English
Although current large Vision-Language Models (VLMs) have advanced in
multimodal understanding and reasoning, their fundamental perceptual and
reasoning abilities remain limited. Specifically, even on simple jigsaw tasks,
existing VLMs perform near randomly, revealing deficiencies in core perception
and reasoning capabilities. While high-quality vision-language data can enhance
these capabilities, its scarcity and limited scalability impose significant
constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction
Learning for Enhancing visual perception and reasoning in VLMs. AGILE
formulates jigsaw solving as an interactive process, enabling the model to
progressively engage with the environment. At each step, the model generates
executable code to perform an action based on the current state, while the
environment provides fine-grained visual feedback to guide task completion.
Through this iterative cycle of observation and interaction, the model
incrementally improves its perceptual and reasoning capabilities via
exploration and feedback. Experimental results show that AGILE not only
substantially boosts performance on jigsaw tasks of varying complexity (e.g.,
increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also
demonstrates strong generalization across 9 general vision tasks, achieving an
average improvement of 3.1%. These results indicate notable enhancements in
both perceptual and reasoning abilities. This work opens a new avenue for
advancing reasoning and generalization in multimodal models and provides an
efficient, scalable solution to the scarcity of multimodal reinforcement
learning data. The code and datasets is available at
https://github.com/yuzeng0-0/AGILE .