DeepEyesV2: Verso un Modello Multimodale Agente

Abstract

I modelli multimodali agentivi non dovrebbero solo comprendere testo e immagini, ma anche invocare attivamente strumenti esterni, come ambienti di esecuzione di codice e ricerche web, integrando queste operazioni nel ragionamento. In questo lavoro, presentiamo DeepEyesV2 ed esploriamo come costruire un modello multimodale agentivo dalle prospettive della costruzione dei dati, dei metodi di addestramento e della valutazione del modello. Osserviamo che il solo reinforcement learning diretto non riesce a indurre un comportamento robusto nell'uso degli strumenti. Questo fenomeno motiva una pipeline di addestramento in due fasi: una fase di cold-start per stabilire modelli di utilizzo degli strumenti, e una fase di reinforcement learning per affinare ulteriormente l'invocazione degli strumenti. Curiamo un dataset di addestramento diversificato e moderatamente impegnativo, includendo specificamente esempi in cui l'uso di strumenti è vantaggioso. Introduciamo inoltre RealX-Bench, un benchmark completo progettato per valutare il ragionamento multimodale nel mondo reale, che richiede intrinsecamente l'integrazione di molteplici capacità, tra cui percezione, ricerca e ragionamento. Valutiamo DeepEyesV2 su RealX-Bench e altri benchmark rappresentativi, dimostrandone l'efficacia in ambiti come la comprensione del mondo reale, il ragionamento matematico e i task ad alta intensità di ricerca. Inoltre, DeepEyesV2 mostra un'invocazione di strumenti adattiva al compito, tendendo a utilizzare operazioni sulle immagini per task di percezione e calcoli numerici per task di ragionamento. Il reinforcement learning abilita ulteriormente combinazioni complesse di strumenti e permette al modello di invocare selettivamente gli strumenti in base al contesto. Speriamo che il nostro studio possa fornire una guida per la comunità nello sviluppo di modelli multimodali agentivi.

English

Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and explore how to build an agentic multimodal model from the perspectives of data construction, training methods, and model evaluation. We observe that direct reinforcement learning alone fails to induce robust tool-use behavior. This phenomenon motivates a two-stage training pipeline: a cold-start stage to establish tool-use patterns, and reinforcement learning stage to further refine tool invocation. We curate a diverse, moderately challenging training dataset, specifically including examples where tool use is beneficial. We further introduce RealX-Bench, a comprehensive benchmark designed to evaluate real-world multimodal reasoning, which inherently requires the integration of multiple capabilities, including perception, search, and reasoning. We evaluate DeepEyesV2 on RealX-Bench and other representative benchmarks, demonstrating its effectiveness across real-world understanding, mathematical reasoning, and search-intensive tasks. Moreover, DeepEyesV2 exhibits task-adaptive tool invocation, tending to use image operations for perception tasks and numerical computations for reasoning tasks. Reinforcement learning further enables complex tool combinations and allows model to selectively invoke tools based on context. We hope our study can provide guidance for community in developing agentic multimodal models.

DeepEyesV2: Verso un Modello Multimodale Agente

DeepEyesV2: Toward Agentic Multimodal Model

Abstract

Support