ChatPaper.aiChatPaper

ROVER: Benchmarking reziproken cross-modaler Reasoning für omnimodale Generierung

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

November 3, 2025
papers.authors: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI

papers.abstract

Vereinheitlichte multimodale Modelle (UMMs) haben sich als leistungsstarkes Paradigma etabliert, um Text- und Bildverständnis sowie -generierung nahtlos zu vereinen. Vorherrschende Evaluierungen behandeln diese Fähigkeiten jedoch isoliert, sodass Aufgaben mit multimodalen Eingaben und Ausgaben primär durch unimodales Schließen bewertet werden; d.h., textbasierte Benchmarks betonen sprachbasiertes Reasoning, während visuelle Benchmarks Schließergebnisse bewerten, die sich in den Pixeln manifestieren. Wir stellen ROVER vor, um diesem dringenden Bedarf an Tests reziproken cross-modalen Reasonings zu begegnen – der Nutzung einer Modalität, um Ausgaben in der anderen zu steuern, zu verifizieren oder zu verfeinern, eine Fähigkeit, die zentral für die Vision vereinheitlichter multimodaler Intelligenz ist. ROVER ist ein humanannotierter Benchmark, der explizit reziprokes cross-modales Reasoning adressiert. Er umfasst 1312 Aufgaben, die in 1876 Bildern verankert sind, und spannt zwei komplementäre Settings auf: Sprachlich augmentiertes Reasoning für visuelle Generierung evaluiert, ob Modelle verbale Prompts und Reasoning-Ketten nutzen können, um eine authentische Bildsynthese zu steuern. Visuell augmentiertes Reasoning für verbale Generierung evaluiert, ob Modelle intermediate Visualisierungen generieren können, die ihre eigenen Reasoning-Prozesse für Frageantwortung verstärken. Experimente mit 17 vereinheitlichten Modellen offenbaren zwei zentrale Erkenntnisse: (i) Cross-modales Reasoning bestimmt die Qualität der visuellen Generierung, wobei verschachtelte Modelle nicht-verschachtelte signifikant übertreffen; bemerkenswerterweise erreicht die Kombination starker unimodaler Modelle kein vergleichbares Reasoning. (ii) Modelle zeigen eine Dissoziation zwischen physikalischem und symbolischem Reasoning: Sie sind erfolgreich beim wörtlichen Interpretieren perzeptueller Konzepte, scheitern aber beim Konstruieren visueller Abstraktionen für symbolische Aufgaben, wo fehlerhaftes Reasoning die Leistung beeinträchtigt. Diese Ergebnisse unterstreichen reziprokes cross-modales Reasoning als kritische Frontier für die Ermöglichung wahrer omnimodaler Generierung.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for seamlessly unifying text and image understanding and generation. However, prevailing evaluations treat these abilities in isolation, such that tasks with multimodal inputs and outputs are scored primarily through unimodal reasoning, i.e., textual benchmarks emphasize language-based reasoning, while visual benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce ROVER to address this pressing need to test reciprocal cross-modal reasoning, the use of one modality to guide, verify, or refine outputs in the other, an ability central to the vision of unified multimodal intelligence. ROVER is a human-annotated benchmark that explicitly targets reciprocal cross-modal reasoning, which contains 1312 tasks grounded in 1876 images, spanning two complementary settings. Verbally-augmented reasoning for visual generation evaluates whether models can use verbal prompts and reasoning chains to guide faithful image synthesis. Visually-augmented reasoning for verbal generation evaluates whether models can generate intermediate visualizations that strengthen their own reasoning processes for question answering. Experiments on 17 unified models reveal two key findings: (i) Cross-modal reasoning determines visual generation quality, with interleaved models significantly outperforming non-interleaved ones; notably, combining strong unimodal models fails to achieve comparable reasoning. (ii) Models show dissociation between physical and symbolic reasoning: they succeed at interpreting perceptual concepts literally but fail to construct visual abstractions for symbolic tasks, where faulty reasoning harms performance. These results highlight reciprocal cross-modal reasoning as a critical frontier for enabling true omnimodal generation.
PDF311January 19, 2026