ChatPaper.aiChatPaper

OpenThinkIMG: 視覚ツールを用いた強化学習による画像思考の学習

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
著者: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI

要旨

人間は複雑な問題解決のためにインタラクティブな視覚認知を柔軟に活用できますが、大規模視覚言語モデル(LVLM)に視覚ツールを用いた同様の適応的行動を学習させることは依然として困難です。大きな障壁の一つは、標準化されたインフラストラクチャの欠如であり、これが多様なツールの統合、豊富なインタラクションデータの生成、そして堅牢なエージェントの効果的な訓練を妨げています。これらの課題に対処するため、我々はOpenThinkIMGを導入します。これは、ツール拡張型LVLMのための初のオープンソースで包括的なエンドツーエンドフレームワークです。標準化された視覚ツールインターフェース、ポリシー初期化のためのスケーラブルな軌跡生成、そして柔軟な訓練環境を特徴としています。さらに、静的なデモンストレーションに基づく教師あり微調整(SFT)では、動的なツール呼び出しのためのポリシー一般化が限定的であることを考慮し、我々は新しい強化学習(RL)フレームワークV-ToolRLを提案します。V-ToolRLは、外部視覚ツールを呼び出すための適応ポリシーをLVLMに学習させることを可能にします。V-ToolRLは、ツールインタラクションからのフィードバックを用いてタスク成功を直接最適化することで、LVLMが最適なツール使用戦略を自律的に発見することを可能にします。我々は、V-ToolRLを挑戦的なチャート推論タスクで実証的に検証しました。Qwen2-VL-2Bを基に構築したRL訓練エージェントは、SFT初期化された対照モデルを大幅に上回り(+28.83ポイント)、TacoやCogComなどの確立された教師ありツール学習ベースラインを平均+12.7ポイント上回りました。特に、GPT-4.1のような著名なクローズドソースモデルも+8.68精度ポイント上回りました。我々は、OpenThinkIMGが動的なツール拡張型視覚推論の進展のための基盤フレームワークとして機能し、コミュニティが真に「画像で考える」AIエージェントを開発するのに役立つことを願っています。
English
While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".

Summary

AI-Generated Summary

PDF243May 16, 2025