ChatPaper.aiChatPaper

OpenThinkIMG: Lernen, mit Bildern zu denken durch visuelles Werkzeug Verstärkungslernen

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
Autoren: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI

Zusammenfassung

Während Menschen flexible visuelle Interaktionskognition für komplexe Problemlösungen nutzen können, bleibt es eine Herausforderung, Large Vision-Language Models (LVLMs) ähnlich adaptive Verhaltensweisen mit visuellen Werkzeugen zu ermöglichen. Ein wesentliches Hindernis ist der derzeitige Mangel an standardisierter Infrastruktur, was die Integration verschiedener Werkzeuge, die Generierung umfangreicher Interaktionsdaten und das effektive Training robuster Agenten erschwert. Um diese Lücken zu schließen, stellen wir OpenThinkIMG vor, das erste Open-Source, umfassende End-to-End-Framework für werkzeuggestützte LVLMs. Es bietet standardisierte Schnittstellen für visuelle Werkzeuge, skalierbare Trajektoriengenerierung zur Policy-Initialisierung und eine flexible Trainingsumgebung. Darüber hinaus berücksichtigen wir, dass Supervised Fine-Tuning (SFT) auf statischen Demonstrationen nur begrenzte Policy-Generalisierung für den dynamischen Aufruf von Werkzeugen bietet, und schlagen ein neuartiges Reinforcement Learning (RL) Framework, V-ToolRL, vor, um LVLMs zu trainieren, adaptive Policies für den Aufruf externer visueller Werkzeuge zu erlernen. V-ToolRL ermöglicht es LVLMs, optimale Werkzeugnutzungsstrategien autonom zu entdecken, indem es direkt den Aufgaben-Erfolg durch Feedback aus Werkzeuginteraktionen optimiert. Wir validieren V-ToolRL empirisch anspruchsvollen Diagramm-Analyseaufgaben. Unser RL-trainierter Agent, basierend auf einem Qwen2-VL-2B, übertrifft seinen SFT-initialisierten Gegenpart deutlich (+28,83 Punkte) und überragt etablierte überwachte Werkzeuglern-Baselines wie Taco und CogCom im Durchschnitt um +12,7 Punkte. Bemerkenswerterweise übertrifft er auch prominente Closed-Source-Modelle wie GPT-4.1 um +8,68 Genauigkeitspunkte. Wir hoffen, dass OpenThinkIMG als grundlegendes Framework für die Weiterentwicklung dynamischer, werkzeuggestützter visueller Argumentation dienen kann und der Gemeinschaft hilft, KI-Agenten zu entwickeln, die wirklich „mit Bildern denken“ können.
English
While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".

Summary

AI-Generated Summary

PDF243May 16, 2025