DeepEyesV2: Auf dem Weg zu einem agentenbasierten multimodalen Modell
DeepEyesV2: Toward Agentic Multimodal Model
November 7, 2025
papers.authors: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu
cs.AI
papers.abstract
Agentische multimodale Modelle sollten nicht nur Text und Bilder verstehen, sondern auch aktiv externe Werkzeuge wie Code-Ausführungsumgebungen und Websuche aufrufen sowie diese Operationen in das Schlussfolgern integrieren. In dieser Arbeit stellen wir DeepEyesV2 vor und untersuchen, wie ein agentisches multimodales Modell aus den Perspektiven der Datenerstellung, Trainingsmethoden und Modellbewertung aufgebaut werden kann. Wir beobachten, dass rein direktes Reinforcement Learning allein kein robustes Werkzeugnutzungsverhalten induziert. Dieses Phänomen motiviert eine zweistufige Trainingspipeline: eine Kaltstart-Phase zur Etablierung von Werkzeugnutzungsmustern und eine Reinforcement-Learning-Phase zur weiteren Verfeinerung des Werkzeugaufrufs. Wir kuratieren einen diversen, moderat anspruchsvollen Trainingsdatensatz, der speziell Beispiele enthält, bei denen Werkzeugnutzung vorteilhaft ist. Weiterhin führen wir RealX-Bench ein, einen umfassenden Benchmark zur Bewertung multimodalen Schlussfolgerns in realen Szenarien, der inhärent die Integration multipler Fähigkeiten wie Wahrnehmung, Suche und Reasoning erfordert. Wir evaluieren DeepEyesV2 auf RealX-Bench und anderen repräsentativen Benchmarks und demonstrieren dessen Wirksamkeit in den Bereichen Realweltverständnis, mathematisches Reasoning und suchintensive Aufgaben. Zudem zeigt DeepEyesV2 aufgabenadaptive Werkzeugaufrufe, mit einer Tendenz zur Nutzung von Bildoperationen bei Wahrnehmungsaufgaben und numerischen Berechnungen bei Reasoning-Aufgaben. Reinforcement Learning ermöglicht weiterhin komplexe Werkzeugkombinationen und erlaubt dem Modell, kontextbasiert selektiv Werkzeuge aufzurufen. Wir hoffen, dass unsere Studie der Community Orientierung bei der Entwicklung agentischer multimodaler Modelle bieten kann.
English
Agentic multimodal models should not only comprehend text and images, but
also actively invoke external tools, such as code execution environments and
web search, and integrate these operations into reasoning. In this work, we
introduce DeepEyesV2 and explore how to build an agentic multimodal model from
the perspectives of data construction, training methods, and model evaluation.
We observe that direct reinforcement learning alone fails to induce robust
tool-use behavior. This phenomenon motivates a two-stage training pipeline: a
cold-start stage to establish tool-use patterns, and reinforcement learning
stage to further refine tool invocation. We curate a diverse, moderately
challenging training dataset, specifically including examples where tool use is
beneficial. We further introduce RealX-Bench, a comprehensive benchmark
designed to evaluate real-world multimodal reasoning, which inherently requires
the integration of multiple capabilities, including perception, search, and
reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative
benchmarks, demonstrating its effectiveness across real-world understanding,
mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2
exhibits task-adaptive tool invocation, tending to use image operations for
perception tasks and numerical computations for reasoning tasks. Reinforcement
learning further enables complex tool combinations and allows model to
selectively invoke tools based on context. We hope our study can provide
guidance for community in developing agentic multimodal models.