ChatPaper.aiChatPaper

MindWatcher: Auf dem Weg zu intelligenteren multimodalen Werkzeugintegrierten Denkprozessen

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

December 29, 2025
papers.authors: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI

papers.abstract

Herkömmliche, workflow-basierte Agenten zeigen nur begrenzte Intelligenz bei der Lösung realer Probleme, die den Aufruf von Werkzeugen erfordern. Tool-integrierte Reasoning-Agenten (TIR-Agenten), die zu autonomer Schlussfolgerung und Werkzeugnutzung fähig sind, entwickeln sich rasch zu einem leistungsstarken Ansatz für komplexe Entscheidungsaufgaben mit mehrstufigen Interaktionen mit externen Umgebungen. In dieser Arbeit stellen wir MindWatcher vor, einen TIR-Agenten, der verschachteltes Denken (Interleaved Thinking) und multimodale Chain-of-Thought (CoT)-Reasoning integriert. MindWatcher kann autonom entscheiden, ob und wie verschiedene Werkzeuge aufgerufen und deren Nutzung koordiniert werden, ohne auf menschliche Eingaben oder Workflows angewiesen zu sein. Das Paradigma des verschachtelten Denkens ermöglicht es dem Modell, in jeder Zwischenstufe zwischen Denken und Werkzeugaufruf zu wechseln, während seine multimodale CoT-Fähigkeit die Manipulation von Bildern während des Reasoning erlaubt, um präzisere Suchergebnisse zu erzielen. Wir implementieren automatisierte Datenaudit- und Evaluierungspipelines, ergänzt durch manuell kuratierte, hochwertige Datensätze für das Training, und erstellen einen Benchmark, genannt MindWatcher-Evaluate Bench (MWE-Bench), um seine Leistung zu bewerten. MindWatcher ist mit einer umfassenden Suite von Hilfs-Werkzeugen für das Reasoning ausgestattet, die es ihm ermöglicht, multmodale Probleme in einem breiten Domänenspektrum zu adressieren. Eine groß angelegte, hochwertige lokale Bildersuchdatenbank, die acht Kategorien wie Autos, Tiere und Pflanzen abdeckt, verleiht dem Modell trotz seiner geringen Größe eine robuste Objekterkennung. Schließlich entwerfen wir eine effizientere Trainingsinfrastruktur für MindWatcher, die die Trainingsgeschwindigkeit und Hardwareauslastung verbessert. Experimente zeigen nicht nur, dass MindWatcher durch überlegene Werkzeugnutzung die Leistung größerer oder neuerer Modelle erreicht oder übertrifft, sondern liefern auch kritische Erkenntnisse für das Agententraining, wie das Phänomen der genetischen Vererbung beim agentenbasierten bestärkenden Lernen (Agentic RL).
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.
PDF372January 16, 2026