DeepEyesV2: Auf dem Weg zu einem agentenbasierten multimodalen Modell

papers.abstract

Agentische multimodale Modelle sollten nicht nur Text und Bilder verstehen, sondern auch aktiv externe Werkzeuge wie Code-Ausführungsumgebungen und Websuche aufrufen sowie diese Operationen in das Schlussfolgern integrieren. In dieser Arbeit stellen wir DeepEyesV2 vor und untersuchen, wie ein agentisches multimodales Modell aus den Perspektiven der Datenerstellung, Trainingsmethoden und Modellbewertung aufgebaut werden kann. Wir beobachten, dass rein direktes Reinforcement Learning allein kein robustes Werkzeugnutzungsverhalten induziert. Dieses Phänomen motiviert eine zweistufige Trainingspipeline: eine Kaltstart-Phase zur Etablierung von Werkzeugnutzungsmustern und eine Reinforcement-Learning-Phase zur weiteren Verfeinerung des Werkzeugaufrufs. Wir kuratieren einen diversen, moderat anspruchsvollen Trainingsdatensatz, der speziell Beispiele enthält, bei denen Werkzeugnutzung vorteilhaft ist. Weiterhin führen wir RealX-Bench ein, einen umfassenden Benchmark zur Bewertung multimodalen Schlussfolgerns in realen Szenarien, der inhärent die Integration multipler Fähigkeiten wie Wahrnehmung, Suche und Reasoning erfordert. Wir evaluieren DeepEyesV2 auf RealX-Bench und anderen repräsentativen Benchmarks und demonstrieren dessen Wirksamkeit in den Bereichen Realweltverständnis, mathematisches Reasoning und suchintensive Aufgaben. Zudem zeigt DeepEyesV2 aufgabenadaptive Werkzeugaufrufe, mit einer Tendenz zur Nutzung von Bildoperationen bei Wahrnehmungsaufgaben und numerischen Berechnungen bei Reasoning-Aufgaben. Reinforcement Learning ermöglicht weiterhin komplexe Werkzeugkombinationen und erlaubt dem Modell, kontextbasiert selektiv Werkzeuge aufzurufen. Wir hoffen, dass unsere Studie der Community Orientierung bei der Entwicklung agentischer multimodaler Modelle bieten kann.

English

Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and explore how to build an agentic multimodal model from the perspectives of data construction, training methods, and model evaluation. We observe that direct reinforcement learning alone fails to induce robust tool-use behavior. This phenomenon motivates a two-stage training pipeline: a cold-start stage to establish tool-use patterns, and reinforcement learning stage to further refine tool invocation. We curate a diverse, moderately challenging training dataset, specifically including examples where tool use is beneficial. We further introduce RealX-Bench, a comprehensive benchmark designed to evaluate real-world multimodal reasoning, which inherently requires the integration of multiple capabilities, including perception, search, and reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative benchmarks, demonstrating its effectiveness across real-world understanding, mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2 exhibits task-adaptive tool invocation, tending to use image operations for perception tasks and numerical computations for reasoning tasks. Reinforcement learning further enables complex tool combinations and allows model to selectively invoke tools based on context. We hope our study can provide guidance for community in developing agentic multimodal models.

DeepEyesV2: Auf dem Weg zu einem agentenbasierten multimodalen Modell

DeepEyesV2: Toward Agentic Multimodal Model

papers.abstract

Support