ChatPaper.aiChatPaper

DeepEyesV2: 에이전트형 멀티모달 모델을 향하여

DeepEyesV2: Toward Agentic Multimodal Model

November 7, 2025
저자: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu
cs.AI

초록

에이전트형 멀티모달 모델은 텍스트와 이미지를 이해하는 데 그쳐서는 안 되며, 코드 실행 환경 및 웹 검색과 같은 외부 도구를 능동적으로 호출하고 이러한 작업을 추론 과정에 통합해야 합니다. 본 연구에서는 DeepEyesV2를 소개하고 데이터 구축, 훈련 방법, 모델 평가 관점에서 에이전트형 멀티모달 모델을 구축하는 방법을 탐구합니다. 우리는 단순한 직접 강화 학습만으로는 강건한 도구 사용 행동을 유도하지 못한다는 점을 관찰했습니다. 이러한 현상은 두 단계의 훈련 파이프라인, 즉 도구 사용 패턴을 확립하는 콜드스타트 단계와 도구 호출을 추가로 정제하는 강화 학습 단계로의 접근을 동기 부여합니다. 우리는 특히 도구 사용이 유리한 사례를 포함하도록 다양하고 적절한 수준의 도전적인 훈련 데이터 세트를 구성했습니다. 또한 실질적인 멀티모달 추론을 평가하기 위해 설계된 포괄적인 벤치마크인 RealX-Bench를 도입합니다. 이는 인식, 검색, 추론을 포함한 다중 능력 통합을 본질적으로 요구합니다. 우리는 DeepEyesV2를 RealX-Bench 및 다른 대표적인 벤치마크에서 평가하여 실제 세계 이해, 수학적 추론, 검색 집약적 작업 전반에 걸친 그 효과성을 입증합니다. 더 나아가 DeepEyesV2는 작업 적응형 도구 호출을 보여주며, 인식 작업에는 이미지 연산을, 추론 작업에는 수치 계산을 사용하는 경향이 있습니다. 강화 학습은 복잡한 도구 조합을 가능하게 하고 모델이 상황에 따라 선택적으로 도구를 호출할 수 있도록 합니다. 우리의 연구가 에이전트형 멀티모달 모델 개발을 위한 커뮤니티에 지침을 제공할 수 있기를 바랍니다.
English
Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and explore how to build an agentic multimodal model from the perspectives of data construction, training methods, and model evaluation. We observe that direct reinforcement learning alone fails to induce robust tool-use behavior. This phenomenon motivates a two-stage training pipeline: a cold-start stage to establish tool-use patterns, and reinforcement learning stage to further refine tool invocation. We curate a diverse, moderately challenging training dataset, specifically including examples where tool use is beneficial. We further introduce RealX-Bench, a comprehensive benchmark designed to evaluate real-world multimodal reasoning, which inherently requires the integration of multiple capabilities, including perception, search, and reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative benchmarks, demonstrating its effectiveness across real-world understanding, mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2 exhibits task-adaptive tool invocation, tending to use image operations for perception tasks and numerical computations for reasoning tasks. Reinforcement learning further enables complex tool combinations and allows model to selectively invoke tools based on context. We hope our study can provide guidance for community in developing agentic multimodal models.
PDF412December 2, 2025