MindWatcher:よりスマートなマルチモーダルツール統合理論の実現に向けて
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning
December 29, 2025
著者: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI
要旨
従来のワークフローベースのエージェントは、ツール呼び出しを必要とする現実世界の問題に対処する際に限定的な知能しか発揮しません。自律的な推論とツール呼び出しが可能なツール統合型推論(TIR)エージェントは、外部環境との多段階的な相互作用を伴う複雑な意思決定タスクにおいて、強力なアプローチとして急速に台頭しています。本研究では、インタリーブ思考とマルチモーダル連鎖思考(CoT)推論を統合したTIRエージェント「MindWatcher」を提案します。MindWatcherは、人間のプロンプトやワークフローに依存することなく、多様なツールを呼び出すかどうか、そしてどのように呼び出すかを自律的に決定し、それらの使用を調整できます。インタリーブ思考パラダイムにより、モデルは任意の中間段階で思考とツール呼び出しを切り替えることが可能であり、マルチモーダルCoT機能により、推論過程中に画像を操作してより精密な検索結果を得ることができます。自動化されたデータ監査と評価パイプラインを実装し、訓練用に手動で精選された高品質データセットで補完しました。さらに、その性能を評価するためのベンチマーク「MindWatcher-Evaluate Bench(MWE-Bench)」を構築しました。MindWatcherは包括的な補助推論ツール群を備えており、広範な領域にわたるマルチモーダル問題に対処できます。車、動物、植物など8つのカテゴリを網羅する大規模で高品質なローカル画像検索データベースにより、モデルサイズが小さくても堅牢な物体認識能力を付与しています。最後に、訓練速度とハードウェア利用率を向上させる、より効率的なMindWatcher向け訓練インフラを設計しました。実験では、MindWatcherが優れたツール呼び出し能力により、大規模またはより新しいモデルの性能に匹敵あるいは凌駕するだけでなく、エージェント的強化学習における遺伝的継承現象など、エージェント訓練に関する重要な知見も明らかになりました。
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.