DeepEyesV2 : Vers un modèle multimodal agentique

papers.abstract

Les modèles multimodaux agentiques ne doivent pas seulement comprendre le texte et les images, mais aussi activement solliciter des outils externes, tels que des environnements d'exécution de code et la recherche web, et intégrer ces opérations dans le raisonnement. Dans ce travail, nous présentons DeepEyesV2 et explorons comment construire un modèle multimodal agentique sous les angles de la construction des données, des méthodes d'entraînement et de l'évaluation du modèle. Nous observons que l'apprentissage par renforcement seul échoue à induire un comportement robuste d'utilisation d'outils. Ce phénomène motive une pipeline d'entraînement en deux étapes : une phase d'amorçage pour établir les schémas d'utilisation d'outils, et une phase d'apprentissage par renforcement pour affiner davantage l'invocation des outils. Nous constituons un ensemble de données d'entraînement diversifié et modérément difficile, incluant spécifiquement des exemples où l'utilisation d'outils est bénéfique. Nous introduisons en outre RealX-Bench, un benchmark complet conçu pour évaluer le raisonnement multimodal en conditions réelles, qui nécessite intrinsèquement l'intégration de multiples capacités, incluant la perception, la recherche et le raisonnement. Nous évaluons DeepEyesV2 sur RealX-Bench et d'autres benchmarks représentatifs, démontrant son efficacité dans la compréhension du monde réel, le raisonnement mathématique et les tâches intensives en recherche. De plus, DeepEyesV2 présente une invocation d'outils adaptative à la tâche, tendant à utiliser les opérations sur images pour les tâches de perception et les calculs numériques pour les tâches de raisonnement. L'apprentissage par renforcement permet en outre des combinaisons complexes d'outils et permet au modèle d'invoquer sélectivement les outils en fonction du contexte. Nous espérons que notre étude pourra fournir des orientations à la communauté pour le développement de modèles multimodaux agentiques.

English

Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and explore how to build an agentic multimodal model from the perspectives of data construction, training methods, and model evaluation. We observe that direct reinforcement learning alone fails to induce robust tool-use behavior. This phenomenon motivates a two-stage training pipeline: a cold-start stage to establish tool-use patterns, and reinforcement learning stage to further refine tool invocation. We curate a diverse, moderately challenging training dataset, specifically including examples where tool use is beneficial. We further introduce RealX-Bench, a comprehensive benchmark designed to evaluate real-world multimodal reasoning, which inherently requires the integration of multiple capabilities, including perception, search, and reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative benchmarks, demonstrating its effectiveness across real-world understanding, mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2 exhibits task-adaptive tool invocation, tending to use image operations for perception tasks and numerical computations for reasoning tasks. Reinforcement learning further enables complex tool combinations and allows model to selectively invoke tools based on context. We hope our study can provide guidance for community in developing agentic multimodal models.

DeepEyesV2 : Vers un modèle multimodal agentique

DeepEyesV2: Toward Agentic Multimodal Model

papers.abstract

Support