ChatPaper.aiChatPaper

MindWatcher: 더 스마트한 다중 모드 도구 통합 추론을 향하여

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

December 29, 2025
저자: Jiawei Chen, Xintian Shen, Lihao Zheng, Zhenwei Shao, Hongyuan Zhang, Pengfei Yu, Xudong Rao, Ning Mao, Xiaobo Liu, Lian Wen, Chaoqun Du, Feng Gu, Wei He, Qizhen Li, Shanshan Li, Zide Liu, Jing Luo, Lifu Mu, Xuhao Pan, Chang Ren, Haoyi Sun, Qian Wang, Wei Wang, Hongfu Yang, Jiqing Zhan, Chunpeng Zhou, Zheng Zhou, Hao Ma, Tao Wei, Pan Zhou, Wei Chen
cs.AI

초록

기존 워크플로우 기반 에이전트는 도구 호출이 필요한 현실 문제를 해결할 때 제한된 지능을 보여줍니다. 자율 추론과 도구 호출이 가능한 도구 통합 추론(TIR) 에이전트는 외부 환경과의 다단계 상호작용을 포함하는 복잡한 의사 결정 과제를 위한 강력한 접근법으로 급부상하고 있습니다. 본 연구에서는 인터리브드 사고와 멀티모달 연쇄 추론(CoT)을 통합한 TIR 에이전트인 MindWatcher를 소개합니다. MindWatcher는 인간의 프롬프트나 워크플로우에 의존하지 않고 다양한 도구를 호출할지 여부와 방법을 자율적으로 결정하고 그 사용을 조율할 수 있습니다. 인터리브드 사고 패러다임은 모델이 중간 단계에서 언제든지 사고와 도구 호출 사이를 전환할 수 있게 하며, 멀티모달 CoT 기능은 추론 과정에서 이미지를 조작하여 더 정확한 검색 결과를 도출할 수 있게 합니다. 자동화된 데이터 감사 및 평가 파이프라인을 구현하고 훈련을 위해 수동으로 선별된 고품질 데이터셋으로 보완하며, 성능을 평가하기 위해 MindWatcher-Evaluate Bench(MWE-Bench)라는 벤치마크를 구축했습니다. MindWatcher는 포괄적인 보조 추론 도구 세트를 갖추고 있어 광범위한 영역의 멀티모달 문제를 해결할 수 있습니다. 자동차, 동물, 식물 등 8개 범주를 아우르는 대규모 고품질 로컬 이미지 검색 데이터베이스는 모델의 크기가 작음에도 강력한 객체 인식 능력을 제공합니다. 마지막으로, MindWatcher를 위해 훈련 속도와 하드웨어 활용도를 향상시키는 더 효율적인 훈련 인프라를 설계했습니다. 실험을 통해 MindWatcher가 우수한 도구 호출을 통해 더 크거나 최신 모델들의 성능을 맞추거나 능가할 뿐만 아니라, 에이전트 강화학습에서의 유전적 상속 현상과 같은 에이전트 훈련에 대한 중요한 통찰력을 발견했습니다.
English
Traditional workflow-based agents exhibit limited intelligence when addressing real-world problems requiring tool invocation. Tool-integrated reasoning (TIR) agents capable of autonomous reasoning and tool invocation are rapidly emerging as a powerful approach for complex decision-making tasks involving multi-step interactions with external environments. In this work, we introduce MindWatcher, a TIR agent integrating interleaved thinking and multimodal chain-of-thought (CoT) reasoning. MindWatcher can autonomously decide whether and how to invoke diverse tools and coordinate their use, without relying on human prompts or workflows. The interleaved thinking paradigm enables the model to switch between thinking and tool calling at any intermediate stage, while its multimodal CoT capability allows manipulation of images during reasoning to yield more precise search results. We implement automated data auditing and evaluation pipelines, complemented by manually curated high-quality datasets for training, and we construct a benchmark, called MindWatcher-Evaluate Bench (MWE-Bench), to evaluate its performance. MindWatcher is equipped with a comprehensive suite of auxiliary reasoning tools, enabling it to address broad-domain multimodal problems. A large-scale, high-quality local image retrieval database, covering eight categories including cars, animals, and plants, endows model with robust object recognition despite its small size. Finally, we design a more efficient training infrastructure for MindWatcher, enhancing training speed and hardware utilization. Experiments not only demonstrate that MindWatcher matches or exceeds the performance of larger or more recent models through superior tool invocation, but also uncover critical insights for agent training, such as the genetic inheritance phenomenon in agentic RL.
PDF372January 16, 2026