ChatPaper.aiChatPaper

ROVER: Benchmarking del Ragionamento Reciproco Cross-Modale per la Generazione Omnimodale

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

November 3, 2025
Autori: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI

Abstract

I modelli multimodali unificati (UMM) sono emersi come un paradigma potente per unificare in modo fluido la comprensione e la generazione di testo e immagini. Tuttavia, le valutazioni prevalenti trattano queste capacità in modo isolato, cosicché i compiti con input e output multimodali vengono valutati principalmente attraverso ragionamenti unimodali, ad esempio i benchmark testuali enfatizzano il ragionamento basato sul linguaggio, mentre i benchmark visivi enfatizzano i risultati del ragionamento manifestati nei pixel. Introduciamo ROVER per soddisfare questa pressante necessità di testare il ragionamento reciproco cross-modale, ovvero l'uso di una modalità per guidare, verificare o affinare gli output nell'altra, un'abilità centrale per la visione di un'intelligenza multimodale unificata. ROVER è un benchmark annotato manualmente che mira esplicitamente al ragionamento reciproco cross-modale, contenente 1312 compiti basati su 1876 immagini, che abbracciano due contesti complementari. Il ragionamento verbalmente aumentato per la generazione visiva valuta se i modelli possono utilizzare prompt verbali e catene di ragionamento per guidare una sintesi fedele delle immagini. Il ragionamento visivamente aumentato per la generazione verbale valuta se i modelli possono generare visualizzazioni intermedie che rafforzino i propri processi di ragionamento per il question answering. Esperimenti su 17 modelli unificati rivelano due risultati chiave: (i) Il ragionamento cross-modale determina la qualità della generazione visiva, con i modelli interallacciati che superano significativamente quelli non interallacciati; è notevole che la combinazione di forti modelli unimodali non riesca a raggiungere un ragionamento comparabile. (ii) I modelli mostrano una dissociazione tra ragionamento fisico e simbolico: riescono a interpretare concetti percettivi in modo letterale ma falliscono nel costruire astrazioni visive per compiti simbolici, dove un ragionamento difettoso danneggia le prestazioni. Questi risultati evidenziano il ragionamento reciproco cross-modale come una frontiera critica per abilitare una vera generazione omnimodale.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for seamlessly unifying text and image understanding and generation. However, prevailing evaluations treat these abilities in isolation, such that tasks with multimodal inputs and outputs are scored primarily through unimodal reasoning, i.e., textual benchmarks emphasize language-based reasoning, while visual benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce ROVER to address this pressing need to test reciprocal cross-modal reasoning, the use of one modality to guide, verify, or refine outputs in the other, an ability central to the vision of unified multimodal intelligence. ROVER is a human-annotated benchmark that explicitly targets reciprocal cross-modal reasoning, which contains 1312 tasks grounded in 1876 images, spanning two complementary settings. Verbally-augmented reasoning for visual generation evaluates whether models can use verbal prompts and reasoning chains to guide faithful image synthesis. Visually-augmented reasoning for verbal generation evaluates whether models can generate intermediate visualizations that strengthen their own reasoning processes for question answering. Experiments on 17 unified models reveal two key findings: (i) Cross-modal reasoning determines visual generation quality, with interleaved models significantly outperforming non-interleaved ones; notably, combining strong unimodal models fails to achieve comparable reasoning. (ii) Models show dissociation between physical and symbolic reasoning: they succeed at interpreting perceptual concepts literally but fail to construct visual abstractions for symbolic tasks, where faulty reasoning harms performance. These results highlight reciprocal cross-modal reasoning as a critical frontier for enabling true omnimodal generation.
PDF311December 2, 2025