ChatPaper.aiChatPaper

DeepEyesV2: Op weg naar een agentieve multimodale model

DeepEyesV2: Toward Agentic Multimodal Model

November 7, 2025
Auteurs: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu
cs.AI

Samenvatting

Agentische multimodale modellen moeten niet alleen tekst en afbeeldingen begrijpen, maar ook actief externe tools aanroepen, zoals code-uitvoeringsomgevingen en webzoekopdrachten, en deze handelingen integreren in hun redeneerproces. In dit werk introduceren we DeepEyesV2 en onderzoeken we hoe een agentisch multimodaal model kan worden opgebouwd vanuit de perspectieven van dataconstructie, trainingsmethoden en modelevaluatie. We observeren dat enkel directe reinforcement learning onvoldoende is om robuust toolgebruik te induceren. Dit fenomeen motiveert een tweefasentrainingspijplijn: een cold-startfase om toolgebruikspatronen te vestigen, en een reinforcement learning-fase om het aanroepen van tools verder te verfijnen. We stellen een diverse, matig uitdagende trainingsdataset samen die specifiek voorbeelden bevat waarin toolgebruik nuttig is. Verder introduceren we RealX-Bench, een uitgebreide benchmark ontworpen om real-world multimodaal redeneren te evalueren, wat inherent de integratie van meerdere capaciteiten vereist, waaronder waarneming, zoeken en redeneren. We evalueren DeepEyesV2 op RealX-Bench en andere representatieve benchmarks, wat de effectiviteit aantoont bij real-world begrip, wiskundig redeneren en zoekintensieve taken. Bovendien vertoont DeepEyesV2 taakadaptief toolgebruik, met een neiging om beeldbewerkingen te gebruiken voor waarnemingstaken en numerieke berekeningen voor redeneertaken. Reinforcement learning maakt complexe toolcombinaties mogelijk en stelt het model in staat om tools selectief aan te roepen op basis van context. We hopen dat onze studie richting kan geven aan de gemeenschap bij de ontwikkeling van agentische multimodale modellen.
English
Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and explore how to build an agentic multimodal model from the perspectives of data construction, training methods, and model evaluation. We observe that direct reinforcement learning alone fails to induce robust tool-use behavior. This phenomenon motivates a two-stage training pipeline: a cold-start stage to establish tool-use patterns, and reinforcement learning stage to further refine tool invocation. We curate a diverse, moderately challenging training dataset, specifically including examples where tool use is beneficial. We further introduce RealX-Bench, a comprehensive benchmark designed to evaluate real-world multimodal reasoning, which inherently requires the integration of multiple capabilities, including perception, search, and reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative benchmarks, demonstrating its effectiveness across real-world understanding, mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2 exhibits task-adaptive tool invocation, tending to use image operations for perception tasks and numerical computations for reasoning tasks. Reinforcement learning further enables complex tool combinations and allows model to selectively invoke tools based on context. We hope our study can provide guidance for community in developing agentic multimodal models.
PDF412December 2, 2025