Agentisches Jigsaw-Interaktionslernen zur Verbesserung der visuellen Wahrnehmung und des logischen Denkens in Vision-Sprache-Modellen
Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
October 1, 2025
papers.authors: Yu Zeng, Wenxuan Huang, Shiting Huang, Xikun Bao, Yukun Qi, Yiming Zhao, Qiuchen Wang, Lin Chen, Zehui Chen, Huaian Chen, Wanli Ouyang, Feng Zhao
cs.AI
papers.abstract
Obwohl aktuelle große Vision-Language-Modelle (VLMs) Fortschritte im multimodalen Verständnis und in der Argumentation gemacht haben, bleiben ihre grundlegenden Wahrnehmungs- und Argumentationsfähigkeiten begrenzt. Insbesondere zeigen bestehende VLMs selbst bei einfachen Puzzle-Aufgaben nahezu zufällige Leistungen, was Defizite in den Kernfähigkeiten der Wahrnehmung und des logischen Denkens offenbart. Während hochwertige visuell-sprachliche Daten diese Fähigkeiten verbessern können, stellen deren Knappheit und begrenzte Skalierbarkeit erhebliche Einschränkungen dar. Um dies zu adressieren, schlagen wir AGILE vor, ein agentenbasiertes Puzzle-Interaktionslernen zur Verbesserung der visuellen Wahrnehmung und des logischen Denkens in VLMs. AGILE formuliert das Lösen von Puzzles als einen interaktiven Prozess, der es dem Modell ermöglicht, schrittweise mit der Umgebung zu interagieren. In jedem Schritt generiert das Modell ausführbaren Code, um eine Aktion basierend auf dem aktuellen Zustand auszuführen, während die Umgebung detailliertes visuelles Feedback liefert, um die Aufgabenbewältigung zu unterstützen. Durch diesen iterativen Zyklus von Beobachtung und Interaktion verbessert das Modell schrittweise seine Wahrnehmungs- und Argumentationsfähigkeiten durch Exploration und Feedback. Experimentelle Ergebnisse zeigen, dass AGILE nicht nur die Leistung bei Puzzle-Aufgaben unterschiedlicher Komplexität erheblich steigert (z. B. eine Steigerung der Genauigkeit von 9,5 % auf 82,8 % unter der 2-mal-2-Einstellung), sondern auch eine starke Generalisierung über 9 allgemeine visuelle Aufgaben demonstriert, mit einer durchschnittlichen Verbesserung von 3,1 %. Diese Ergebnisse deuten auf bemerkenswerte Verbesserungen sowohl in den Wahrnehmungs- als auch in den Argumentationsfähigkeiten hin. Diese Arbeit eröffnet einen neuen Weg zur Förderung des logischen Denkens und der Generalisierung in multimodalen Modellen und bietet eine effiziente, skalierbare Lösung für die Knappheit von multimodalen Verstärkungslern-Daten. Der Code und die Datensätze sind unter https://github.com/yuzeng0-0/AGILE verfügbar.
English
Although current large Vision-Language Models (VLMs) have advanced in
multimodal understanding and reasoning, their fundamental perceptual and
reasoning abilities remain limited. Specifically, even on simple jigsaw tasks,
existing VLMs perform near randomly, revealing deficiencies in core perception
and reasoning capabilities. While high-quality vision-language data can enhance
these capabilities, its scarcity and limited scalability impose significant
constraints. To address this, we propose AGILE, an Agentic jiGsaw Interaction
Learning for Enhancing visual perception and reasoning in VLMs. AGILE
formulates jigsaw solving as an interactive process, enabling the model to
progressively engage with the environment. At each step, the model generates
executable code to perform an action based on the current state, while the
environment provides fine-grained visual feedback to guide task completion.
Through this iterative cycle of observation and interaction, the model
incrementally improves its perceptual and reasoning capabilities via
exploration and feedback. Experimental results show that AGILE not only
substantially boosts performance on jigsaw tasks of varying complexity (e.g.,
increasing accuracy from 9.5% to 82.8% under the 2 times 2 setting) but also
demonstrates strong generalization across 9 general vision tasks, achieving an
average improvement of 3.1%. These results indicate notable enhancements in
both perceptual and reasoning abilities. This work opens a new avenue for
advancing reasoning and generalization in multimodal models and provides an
efficient, scalable solution to the scarcity of multimodal reinforcement
learning data. The code and datasets is available at
https://github.com/yuzeng0-0/AGILE .