Apprendimento Interattivo a Puzzle Agente per Potenziare la Percezione Visiva e il Ragionamento nei Modelli Visione-Linguaggio
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
October 1, 2025
Autori: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
cs.AI
Abstract
Sebbene gli attuali grandi modelli visione-linguaggio (VLMs) abbiano fatto progressi nella comprensione e nel ragionamento multimodale, le loro capacità percettive e di ragionamento di base rimangono limitate. In particolare, anche su semplici compiti di puzzle, i VLMs esistenti performano quasi casualmente, rivelando carenze nelle capacità fondamentali di percezione e ragionamento. Sebbene dati visione-linguaggio di alta qualità possano migliorare queste capacità, la loro scarsità e la limitata scalabilità impongono vincoli significativi. Per affrontare questo problema, proponiamo AGILE, un Agentic jiGsaw Interaction Learning per potenziare la percezione visiva e il ragionamento nei VLMs. AGILE formula la risoluzione dei puzzle come un processo interattivo, consentendo al modello di impegnarsi progressivamente con l'ambiente. Ad ogni passo, il modello genera codice eseguibile per eseguire un'azione basata sullo stato corrente, mentre l'ambiente fornisce un feedback visivo dettagliato per guidare il completamento del compito. Attraverso questo ciclo iterativo di osservazione e interazione, il modello migliora gradualmente le sue capacità percettive e di ragionamento tramite esplorazione e feedback. I risultati sperimentali mostrano che AGILE non solo aumenta significativamente le prestazioni su compiti di puzzle di varia complessità (ad esempio, aumentando l'accuratezza dal 9,5% all'82,8% nell'impostazione 2x2), ma dimostra anche una forte generalizzazione su 9 compiti visivi generali, ottenendo un miglioramento medio del 3,1%. Questi risultati indicano miglioramenti notevoli sia nelle capacità percettive che di ragionamento. Questo lavoro apre una nuova strada per avanzare il ragionamento e la generalizzazione nei modelli multimodali e fornisce una soluzione efficiente e scalabile alla scarsità di dati di apprendimento per rinforzo multimodale. Il codice e i dataset sono disponibili su https://github.com/yuzeng0-0/AGILE.
English
Although current large Vision-Language Models (VLMs) have advanced in
multimodal understanding and reasoning, their fundamental perceptual and
reasoning abilities remain limited. Specifically, even on simple jigsaw tasks,
existing VLMs perform near randomly, revealing deficiencies in core perception
and reasoning capabilities. While high-quality vision-language data can enhance
these capabilities, its scarcity and limited scalability impose significant
constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction
Learning for Enhancing visual perception and reasoning in VLMs. AGILE
formulates jigsaw solving as an interactive process, enabling the model to
progressively engage with the environment. At each step, the model generates
executable code to perform an action based on the current state, while the
environment provides fine-grained visual feedback to guide task completion.
Through this iterative cycle of observation and interaction, the model
incrementally improves its perceptual and reasoning capabilities via
exploration and feedback. Experimental results show that AGILE not only
substantially boosts performance on jigsaw tasks of varying complexity (e.g.,
increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also
demonstrates strong generalization across 9 general vision tasks, achieving an
average improvement of 3.1%. These results indicate notable enhancements in
both perceptual and reasoning abilities. This work opens a new avenue for
advancing reasoning and generalization in multimodal models and provides an
efficient, scalable solution to the scarcity of multimodal reinforcement
learning data. The code and datasets is available at
https://github.com/yuzeng0-0/AGILE .