DeepEyesV2: Op weg naar een agentieve multimodale model
DeepEyesV2: Toward Agentic Multimodal Model
November 7, 2025
Auteurs: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu
cs.AI
Samenvatting
Agentische multimodale modellen moeten niet alleen tekst en afbeeldingen begrijpen, maar ook actief externe tools aanroepen, zoals code-uitvoeringsomgevingen en webzoekopdrachten, en deze handelingen integreren in hun redeneerproces. In dit werk introduceren we DeepEyesV2 en onderzoeken we hoe een agentisch multimodaal model kan worden opgebouwd vanuit de perspectieven van dataconstructie, trainingsmethoden en modelevaluatie. We observeren dat enkel directe reinforcement learning onvoldoende is om robuust toolgebruik te induceren. Dit fenomeen motiveert een tweefasentrainingspijplijn: een cold-startfase om toolgebruikspatronen te vestigen, en een reinforcement learning-fase om het aanroepen van tools verder te verfijnen. We stellen een diverse, matig uitdagende trainingsdataset samen die specifiek voorbeelden bevat waarin toolgebruik nuttig is. Verder introduceren we RealX-Bench, een uitgebreide benchmark ontworpen om real-world multimodaal redeneren te evalueren, wat inherent de integratie van meerdere capaciteiten vereist, waaronder waarneming, zoeken en redeneren. We evalueren DeepEyesV2 op RealX-Bench en andere representatieve benchmarks, wat de effectiviteit aantoont bij real-world begrip, wiskundig redeneren en zoekintensieve taken. Bovendien vertoont DeepEyesV2 taakadaptief toolgebruik, met een neiging om beeldbewerkingen te gebruiken voor waarnemingstaken en numerieke berekeningen voor redeneertaken. Reinforcement learning maakt complexe toolcombinaties mogelijk en stelt het model in staat om tools selectief aan te roepen op basis van context. We hopen dat onze studie richting kan geven aan de gemeenschap bij de ontwikkeling van agentische multimodale modellen.
English
Agentic multimodal models should not only comprehend text and images, but
also actively invoke external tools, such as code execution environments and
web search, and integrate these operations into reasoning. In this work, we
introduce DeepEyesV2 and explore how to build an agentic multimodal model from
the perspectives of data construction, training methods, and model evaluation.
We observe that direct reinforcement learning alone fails to induce robust
tool-use behavior. This phenomenon motivates a two-stage training pipeline: a
cold-start stage to establish tool-use patterns, and reinforcement learning
stage to further refine tool invocation. We curate a diverse, moderately
challenging training dataset, specifically including examples where tool use is
beneficial. We further introduce RealX-Bench, a comprehensive benchmark
designed to evaluate real-world multimodal reasoning, which inherently requires
the integration of multiple capabilities, including perception, search, and
reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative
benchmarks, demonstrating its effectiveness across real-world understanding,
mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2
exhibits task-adaptive tool invocation, tending to use image operations for
perception tasks and numerical computations for reasoning tasks. Reinforcement
learning further enables complex tool combinations and allows model to
selectively invoke tools based on context. We hope our study can provide
guidance for community in developing agentic multimodal models.