DeepEyesV2: Verso un Modello Multimodale Agente
DeepEyesV2: Toward Agentic Multimodal Model
November 7, 2025
Autori: Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu
cs.AI
Abstract
I modelli multimodali agentivi non dovrebbero solo comprendere testo e immagini, ma anche invocare attivamente strumenti esterni, come ambienti di esecuzione di codice e ricerche web, integrando queste operazioni nel ragionamento. In questo lavoro, presentiamo DeepEyesV2 ed esploriamo come costruire un modello multimodale agentivo dalle prospettive della costruzione dei dati, dei metodi di addestramento e della valutazione del modello. Osserviamo che il solo reinforcement learning diretto non riesce a indurre un comportamento robusto nell'uso degli strumenti. Questo fenomeno motiva una pipeline di addestramento in due fasi: una fase di cold-start per stabilire modelli di utilizzo degli strumenti, e una fase di reinforcement learning per affinare ulteriormente l'invocazione degli strumenti. Curiamo un dataset di addestramento diversificato e moderatamente impegnativo, includendo specificamente esempi in cui l'uso di strumenti è vantaggioso. Introduciamo inoltre RealX-Bench, un benchmark completo progettato per valutare il ragionamento multimodale nel mondo reale, che richiede intrinsecamente l'integrazione di molteplici capacità, tra cui percezione, ricerca e ragionamento. Valutiamo DeepEyesV2 su RealX-Bench e altri benchmark rappresentativi, dimostrandone l'efficacia in ambiti come la comprensione del mondo reale, il ragionamento matematico e i task ad alta intensità di ricerca. Inoltre, DeepEyesV2 mostra un'invocazione di strumenti adattiva al compito, tendendo a utilizzare operazioni sulle immagini per task di percezione e calcoli numerici per task di ragionamento. Il reinforcement learning abilita ulteriormente combinazioni complesse di strumenti e permette al modello di invocare selettivamente gli strumenti in base al contesto. Speriamo che il nostro studio possa fornire una guida per la comunità nello sviluppo di modelli multimodali agentivi.
English
Agentic multimodal models should not only comprehend text and images, but
also actively invoke external tools, such as code execution environments and
web search, and integrate these operations into reasoning. In this work, we
introduce DeepEyesV2 and explore how to build an agentic multimodal model from
the perspectives of data construction, training methods, and model evaluation.
We observe that direct reinforcement learning alone fails to induce robust
tool-use behavior. This phenomenon motivates a two-stage training pipeline: a
cold-start stage to establish tool-use patterns, and reinforcement learning
stage to further refine tool invocation. We curate a diverse, moderately
challenging training dataset, specifically including examples where tool use is
beneficial. We further introduce RealX-Bench, a comprehensive benchmark
designed to evaluate real-world multimodal reasoning, which inherently requires
the integration of multiple capabilities, including perception, search, and
reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative
benchmarks, demonstrating its effectiveness across real-world understanding,
mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2
exhibits task-adaptive tool invocation, tending to use image operations for
perception tasks and numerical computations for reasoning tasks. Reinforcement
learning further enables complex tool combinations and allows model to
selectively invoke tools based on context. We hope our study can provide
guidance for community in developing agentic multimodal models.