ChatPaper.aiChatPaper

プログラミング的視点による思考:画像を用いた思考の統一的視点に向けて

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

December 3, 2025
著者: Zirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin
cs.AI

要旨

画像を用いて思考するマルチモーダル大規模言語モデル(MLLM)は、ツールを対話的に利用して視覚入力を推論できるが、現在のアプローチは実世界での必要性や拡張性が限られた狭いツールセットに依存することが多い。本研究ではまず、重大かつ従来看過されてきた弱点を明らかにする:最先端のMLLMでさえ、単純な向き変更や自然な劣化が加えられた画像に対して性能が著しく低下する驚くべき脆弱性を示し、より頑健なツールベース推論の必要性を浮き彫りにする。この問題に対処するため、我々はCodeVisionを提案する。これは固定されたツールレジストリを超えて、モデルが任意の画像操作を呼び出すための普遍的なインターフェースとしてコードを生成する、柔軟で拡張性の高いコード・アズ・ツールフレームワークである。我々は2段階の手法でモデルを学習する。複雑なマルチターンでのツール合成とエラー回復のために精選された高品質データセットによる教師ありファインチューニング(SFT)から開始し、その後、戦略的かつ効率的なツール利用を促進する新規で高密度なプロセス報酬関数を用いた強化学習(RL)を実施する。この研究を促進するため、新たなSFTおよびRLデータセットを構築し、向き変更への頑健性とマルチツール推論を厳密に評価するために設計された挑戦的な新しいベンチマークスイートを導入する。Qwen2.5-VLおよびQwen3-VLシリーズでの実験により、本アプローチがモデル性能を大幅に改善し、柔軟なツール合成、効率的な連鎖実行、ランタイムフィードバックからの頑健なエラー回復といった創発的能力を育むことを示す。コードはhttps://github.com/ByteDance-BandAI/CodeVision で公開されている。
English
Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.
PDF100December 5, 2025