DeepEyesV2 : Vers un modèle multimodal agentique
DeepEyesV2: Toward Agentic Multimodal Model
November 7, 2025
papers.authors: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu
cs.AI
papers.abstract
Les modèles multimodaux agentiques ne doivent pas seulement comprendre le texte et les images, mais aussi activement solliciter des outils externes, tels que des environnements d'exécution de code et la recherche web, et intégrer ces opérations dans le raisonnement. Dans ce travail, nous présentons DeepEyesV2 et explorons comment construire un modèle multimodal agentique sous les angles de la construction des données, des méthodes d'entraînement et de l'évaluation du modèle. Nous observons que l'apprentissage par renforcement seul échoue à induire un comportement robuste d'utilisation d'outils. Ce phénomène motive une pipeline d'entraînement en deux étapes : une phase d'amorçage pour établir les schémas d'utilisation d'outils, et une phase d'apprentissage par renforcement pour affiner davantage l'invocation des outils. Nous constituons un ensemble de données d'entraînement diversifié et modérément difficile, incluant spécifiquement des exemples où l'utilisation d'outils est bénéfique. Nous introduisons en outre RealX-Bench, un benchmark complet conçu pour évaluer le raisonnement multimodal en conditions réelles, qui nécessite intrinsèquement l'intégration de multiples capacités, incluant la perception, la recherche et le raisonnement. Nous évaluons DeepEyesV2 sur RealX-Bench et d'autres benchmarks représentatifs, démontrant son efficacité dans la compréhension du monde réel, le raisonnement mathématique et les tâches intensives en recherche. De plus, DeepEyesV2 présente une invocation d'outils adaptative à la tâche, tendant à utiliser les opérations sur images pour les tâches de perception et les calculs numériques pour les tâches de raisonnement. L'apprentissage par renforcement permet en outre des combinaisons complexes d'outils et permet au modèle d'invoquer sélectivement les outils en fonction du contexte. Nous espérons que notre étude pourra fournir des orientations à la communauté pour le développement de modèles multimodaux agentiques.
English
Agentic multimodal models should not only comprehend text and images, but
also actively invoke external tools, such as code execution environments and
web search, and integrate these operations into reasoning. In this work, we
introduce DeepEyesV2 and explore how to build an agentic multimodal model from
the perspectives of data construction, training methods, and model evaluation.
We observe that direct reinforcement learning alone fails to induce robust
tool-use behavior. This phenomenon motivates a two-stage training pipeline: a
cold-start stage to establish tool-use patterns, and reinforcement learning
stage to further refine tool invocation. We curate a diverse, moderately
challenging training dataset, specifically including examples where tool use is
beneficial. We further introduce RealX-Bench, a comprehensive benchmark
designed to evaluate real-world multimodal reasoning, which inherently requires
the integration of multiple capabilities, including perception, search, and
reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative
benchmarks, demonstrating its effectiveness across real-world understanding,
mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2
exhibits task-adaptive tool invocation, tending to use image operations for
perception tasks and numerical computations for reasoning tasks. Reinforcement
learning further enables complex tool combinations and allows model to
selectively invoke tools based on context. We hope our study can provide
guidance for community in developing agentic multimodal models.