MindWatcher : Vers un raisonnement multimodal intégrant des outils plus intelligent
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning
December 29, 2025
papers.authors: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI
papers.abstract
Les agents traditionnels basés sur des workflows présentent une intelligence limitée pour résoudre des problèmes réels nécessitant l'invocation d'outils. Les agents à raisonnement intégrant des outils (TIR), capables de raisonnement autonome et d'invocation d'outils, émergent rapidement comme une approche puissante pour les tâches de prise de décision complexes impliquant des interactions multi-étapes avec des environnements externes. Dans ce travail, nous présentons MindWatcher, un agent TIR intégrant une pensée entrelacée et un raisonnement multimodal en chaîne de pensée (CoT). MindWatcher peut décider de manière autonome si et comment invoquer divers outils et coordonner leur utilisation, sans dépendre d'invites humaines ou de workflows. Le paradigme de pensée entrelacée permet au modèle de basculer entre la réflexion et l'appel d'outils à n'importe quel stade intermédiaire, tandis que sa capacité CoT multimodale permet de manipuler des images durant le raisonnement pour obtenir des résultats de recherche plus précis. Nous mettons en œuvre des pipelines automatisés d'audit et d'évaluation des données, complétés par des ensembles de données de haute qualité, soigneusement annotés manuellement pour l'entraînement, et nous construisons un benchmark, appelé MindWatcher-Evaluate Bench (MWE-Bench), pour évaluer ses performances. MindWatcher est équipé d'une suite complète d'outils de raisonnement auxiliaires, lui permettant de traiter des problèmes multimodaux à large domaine. Une base de données locale de recherche d'images à grande échelle et de haute qualité, couvrant huit catégories incluant les voitures, les animaux et les plantes, dote le modèle d'une reconnaissance d'objets robuste malgré sa petite taille. Enfin, nous concevons une infrastructure d'entraînement plus efficace pour MindWatcher, améliorant la vitesse d'entraînement et l'utilisation du matériel. Les expériences démontrent non seulement que MindWatcher égal ou dépasse les performances de modèles plus grands ou plus récents grâce à une invocation d'outils supérieure, mais révèlent également des insights critiques pour l'entraînement des agents, tels que le phénomène d'héritage génétique dans le RL agentiel.
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.