MindWatcher: Rumo a um Raciocínio Mais Inteligente com Ferramentas Multimodais

Resumo

Os agentes baseados em fluxos de trabalho tradicionais apresentam inteligência limitada ao abordar problemas do mundo real que exigem invocação de ferramentas. Agentes de raciocínio integrado com ferramentas (TIR), capazes de raciocínio autônomo e invocação de ferramentas, emergem rapidamente como uma abordagem poderosa para tarefas complexas de tomada de decisão envolvendo interações multi-etapas com ambientes externos. Neste trabalho, apresentamos o MindWatcher, um agente TIR que integra pensamento intercalado e raciocínio multimodal de cadeia de pensamento (CoT). O MindWatcher pode decidir autonomamente se e como invocar diversas ferramentas e coordenar seu uso, sem depender de prompts humanos ou fluxos de trabalho predefinidos. O paradigma de pensamento intercalado permite ao modelo alternar entre pensar e invocar ferramentas em qualquer estágio intermediário, enquanto sua capacidade multimodal de CoT permite a manipulação de imagens durante o raciocínio para produzir resultados de busca mais precisos. Implementamos pipelines automatizados de auditoria e avaliação de dados, complementados por conjuntos de dados de alta qualidade curados manualmente para treinamento, e construímos um benchmark, denominado MindWatcher-Evaluate Bench (MWE-Bench), para avaliar seu desempenho. O MindWatcher é equipado com um conjunto abrangente de ferramentas de raciocínio auxiliar, permitindo-lhe abordar problemas multimodais de amplo domínio. Um banco de dados de recuperação de imagens locais de grande escala e alta qualidade, cobrindo oito categorias incluindo carros, animais e plantas, confere ao modelo um reconhecimento de objetos robusto apesar de seu tamanho reduzido. Por fim, projetamos uma infraestrutura de treinamento mais eficiente para o MindWatcher, aumentando a velocidade de treinamento e a utilização de hardware. Experimentos não apenas demonstram que o MindWatcher iguala ou supera o desempenho de modelos maiores ou mais recentes por meio de uma invocação de ferramentas superior, mas também revelam insights críticos para o treinamento de agentes, como o fenômeno de herança genética no RL agentivo.

English

Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.