MindWatcher: Hacia un Razonamiento Más Inteligente con Herramientas Multimodales Integradas
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning
December 29, 2025
Autores: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI
Resumen
Los agentes basados en flujos de trabajo tradicionales exhiben una inteligencia limitada al abordar problemas del mundo real que requieren invocación de herramientas. Los agentes de razonamiento integrado con herramientas (TIR), capaces de razonar autónomamente e invocar herramientas, están surgiendo rápidamente como un enfoque poderoso para tareas complejas de toma de decisiones que implican interacciones multi-etapa con entornos externos. En este trabajo presentamos MindWatcher, un agente TIR que integra un pensamiento intercalado y un razonamiento multimodal de cadena de pensamiento (CoT). MindWatcher puede decidir autónomamente si y cómo invocar diversas herramientas y coordinar su uso, sin depender de indicaciones humanas o flujos de trabajo predefinidos. El paradigma de pensamiento intercalado permite al modelo alternar entre pensar e invocar herramientas en cualquier etapa intermedia, mientras que su capacidad multimodal CoT le permite manipular imágenes durante el razonamiento para obtener resultados de búsqueda más precisos. Implementamos pipelines automatizados de auditoría y evaluación de datos, complementados con conjuntos de datos de alta calidad curados manualmente para el entrenamiento, y construimos un benchmark, llamado MindWatcher-Evaluate Bench (MWE-Bench), para evaluar su rendimiento. MindWatcher está equipado con un conjunto completo de herramientas de razonamiento auxiliar, lo que le permite abordar problemas multimodales de amplio dominio. Una base de datos de recuperación de imágenes local, de gran escala y alta calidad, que cubre ocho categorías incluyendo coches, animales y plantas, dota al modelo de un reconocimiento de objetos robusto a pesar de su pequeño tamaño. Finalmente, diseñamos una infraestructura de entrenamiento más eficiente para MindWatcher, mejorando la velocidad de entrenamiento y la utilización del hardware. Los experimentos no solo demuestran que MindWatcher iguala o supera el rendimiento de modelos más grandes o recientes mediante una invocación de herramientas superior, sino que también descubren insights críticos para el entrenamiento de agentes, como el fenómeno de herencia genética en el RL agentivo.
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.