MindWatcher: в сторону более интеллектуального мультимодального рассуждения с использованием инструментов
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning
December 29, 2025
Авторы: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI
Аннотация
Традиционные агенты на основе рабочих процессов демонстрируют ограниченный интеллект при решении реальных задач, требующих вызова инструментов. Агенты с интегрированным инструментальным рассуждением (TIR), способные к автономным рассуждениям и вызову инструментов, быстро становятся мощным подходом для сложных задач принятия решений, связанных с многошаговым взаимодействием с внешней средой. В данной работе мы представляем MindWatcher — TIR-агента, объединяющего чередующееся мышление и мультимодальные цепочки рассуждений (CoT). MindWatcher может автономно решать, нужно ли и как вызывать различные инструменты, и координировать их использование без reliance на человеческие подсказки или рабочие процессы. Парадигма чередующегося мышления позволяет модели переключаться между размышлениями и вызовом инструментов на любой промежуточной стадии, в то время как её мультимодальная CoT-способность позволяет манипулировать изображениями в процессе рассуждения для получения более точных результатов поиска. Мы реализуем автоматизированные конвейеры аудита и оценки данных, дополненные тщательно отобранными вручную высококачественными наборами данных для обучения, и создаём эталонный тест MindWatcher-Evaluate Bench (MWE-Bench) для оценки его производительности. MindWatcher оснащён комплексным набором вспомогательных инструментов рассуждения, позволяющим ему решать многомодальные задачи широкого профиля. Крупномасштабная высококачественная локальная база данных поиска изображений, охватывающая восемь категорий (включая автомобили, животных и растения), наделяет модель устойчивым распознаванием объектов несмотря на её малый размер. Наконец, мы разрабатываем более эффективную инфраструктуру обучения для MindWatcher, повышающую скорость обучения и utilization аппаратных ресурсов. Эксперименты не только демонстрируют, что MindWatcher соответствует или превосходит производительность более крупных или современных моделей благодаря превосходному вызову инструментов, но и выявляют ключевые инсайты для обучения агентов, такие как феномен генетического наследования в агентном обучении с подкреплением.
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.