Apprendimento Interattivo a Puzzle Agente per Potenziare la Percezione Visiva e il Ragionamento nei Modelli Visione-Linguaggio

Abstract

Sebbene gli attuali grandi modelli visione-linguaggio (VLMs) abbiano fatto progressi nella comprensione e nel ragionamento multimodale, le loro capacità percettive e di ragionamento di base rimangono limitate. In particolare, anche su semplici compiti di puzzle, i VLMs esistenti performano quasi casualmente, rivelando carenze nelle capacità fondamentali di percezione e ragionamento. Sebbene dati visione-linguaggio di alta qualità possano migliorare queste capacità, la loro scarsità e la limitata scalabilità impongono vincoli significativi. Per affrontare questo problema, proponiamo AGILE, un Agentic jiGsaw Interaction Learning per potenziare la percezione visiva e il ragionamento nei VLMs. AGILE formula la risoluzione dei puzzle come un processo interattivo, consentendo al modello di impegnarsi progressivamente con l'ambiente. Ad ogni passo, il modello genera codice eseguibile per eseguire un'azione basata sullo stato corrente, mentre l'ambiente fornisce un feedback visivo dettagliato per guidare il completamento del compito. Attraverso questo ciclo iterativo di osservazione e interazione, il modello migliora gradualmente le sue capacità percettive e di ragionamento tramite esplorazione e feedback. I risultati sperimentali mostrano che AGILE non solo aumenta significativamente le prestazioni su compiti di puzzle di varia complessità (ad esempio, aumentando l'accuratezza dal 9,5% all'82,8% nell'impostazione 2x2), ma dimostra anche una forte generalizzazione su 9 compiti visivi generali, ottenendo un miglioramento medio del 3,1%. Questi risultati indicano miglioramenti notevoli sia nelle capacità percettive che di ragionamento. Questo lavoro apre una nuova strada per avanzare il ragionamento e la generalizzazione nei modelli multimodali e fornisce una soluzione efficiente e scalabile alla scarsità di dati di apprendimento per rinforzo multimodale. Il codice e i dataset sono disponibili su https://github.com/yuzeng0-0/AGILE.

English

Although current large Vision-Language Models (VLMs) have advanced in multimodal understanding and reasoning, their fundamental perceptual and reasoning abilities remain limited. Specifically, even on simple jigsaw tasks, existing VLMs perform near randomly, revealing deficiencies in core perception and reasoning capabilities. While high-quality vision-language data can enhance these capabilities, its scarcity and limited scalability impose significant constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction Learning for Enhancing visual perception and reasoning in VLMs. AGILE formulates jigsaw solving as an interactive process, enabling the model to progressively engage with the environment. At each step, the model generates executable code to perform an action based on the current state, while the environment provides fine-grained visual feedback to guide task completion. Through this iterative cycle of observation and interaction, the model incrementally improves its perceptual and reasoning capabilities via exploration and feedback. Experimental results show that AGILE not only substantially boosts performance on jigsaw tasks of varying complexity (e.g., increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also demonstrates strong generalization across 9 general vision tasks, achieving an average improvement of 3.1%. These results indicate notable enhancements in both perceptual and reasoning abilities. This work opens a new avenue for advancing reasoning and generalization in multimodal models and provides an efficient, scalable solution to the scarcity of multimodal reinforcement learning data. The code and datasets is available at https://github.com/yuzeng0-0/AGILE .

Apprendimento Interattivo a Puzzle Agente per Potenziare la Percezione Visiva e il Ragionamento nei Modelli Visione-Linguaggio

Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models

Abstract

Support