MindWatcher: Op weg naar slimmere multimodale tool-geïntegreerde redenering
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning
December 29, 2025
Auteurs: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI
Samenvatting
Traditionele op workflows gebaseerde agents vertonen beperkte intelligentie bij het aanpakken van real-world problemen die toolaanroeping vereisen. Tool-geïntegreerde redeneeragents (TIR-agents), die autonoom kunnen redeneren en tools kunnen aanroepen, komen snel naar voren als een krachtige aanpak voor complexe besluitvormingstaken met multi-stap interacties met externe omgevingen. In dit werk introduceren we MindWatcher, een TIR-agent die doordacht denken en multimodale chain-of-thought (CoT) redenering integreert. MindWatcher kan autonoom beslissen of en hoe hij diverse tools moet aanroepen en hun gebruik coördineren, zonder afhankelijk te zijn van menselijke prompts of workflows. Het paradigma van doordacht denken stelt het model in staat om op elk tussenstadium te schakelen tussen denken en toolaanroeping, terwijl de multimodale CoT-capaciteit de manipulatie van afbeeldingen tijdens het redeneren mogelijk maakt om nauwkeurigere zoekresultaten op te leveren. We implementeren geautomatiseerde data-audit- en evaluatiepijplijnen, aangevuld met handmatig samengestelde hoogwaardige datasets voor training, en we construeren een benchmark, genaamd MindWatcher-Evaluate Bench (MWE-Bench), om de prestaties te evalueren. MindWatcher is uitgerust met een uitgebreide set ondersteunende redeneertools, waardoor het brede multimodale problemen kan aanpakken. Een grootschalige, hoogwaardige lokale beeldretrievaldatabase, die acht categorieën omvat zoals auto's, dieren en planten, geeft het model robuuste objectherkenning ondanks zijn kleine omvang. Ten slotte ontwerpen we een efficiëntere trainingsinfrastructuur voor MindWatcher, waardoor de trainingssnelheid en hardwarebenutting worden verbeterd. Experimenten tonen niet alleen aan dat MindWatcher de prestaties van grotere of recentere modellen evenaart of overtreft door superieure toolaanroeping, maar onthullen ook kritieke inzichten voor agenttraining, zoals het genetische overervingsfenomeen bij agent-gebaseerde reinforcement learning.
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.