ChatPaper.aiChatPaper

ROVER: Benchmarking voor Wederzijds Cross-Modaal Redeneren voor Omnimodale Generatie

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

November 3, 2025
Auteurs: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI

Samenvatting

Unified multimodal models (UMM's) zijn naar voren gekomen als een krachtig paradigma voor het naadloos integreren van tekst- en beeldbegrip en -generatie. De heersende evaluatiemethoden behandelen deze vaardigheden echter geïsoleerd, waarbij taken met multimodale invoer en uitvoer voornamelijk worden beoordeeld via unimodale redenering; tekstuele benchmarks benadrukken bijvoorbeeld op taal gebaseerde redenering, terwijl visuele benchmarks de redeneeruitkomsten die in de pixels zichtbaar zijn benadrukken. We introduceren ROVER om in deze dringende behoefte te voorzien door wederkerige cross-modale redenering te testen: het gebruik van de ene modaliteit om uitvoer in de andere te sturen, verifiëren of verfijnen. Dit is een vaardigheid die centraal staat in de visie van verenigde multimodale intelligentie. ROVER is een door mensen geannoteerde benchmark die zich expliciet richt op wederkerige cross-modale redenering en bevat 1312 taken gebaseerd op 1876 afbeeldingen, verdeeld over twee complementaire settings. *Verbaal-augmented redenering voor visuele generatie* evalueert of modellen verbale prompts en redeneerketens kunnen gebruiken om getrouwe beeld-synthese te sturen. *Visueel-augmented redenering voor verbale generatie* evalueert of modellen tussentijdse visualisaties kunnen genereren die hun eigen redeneerprocessen voor vraagbeantwoording versterken. Experimenten met 17 unified models onthullen twee belangrijke bevindingen: (i) Cross-modale redenering bepaalt de kwaliteit van visuele generatie, waarbij geïnterleefde modellen niet-geïnterleefde modellen significant overtreffen; opmerkelijk is dat het combineren van sterke unimodale modellen niet tot vergelijkbare redenering leidt. (ii) Modellen tonen een dissociatie tussen fysieke en symbolische redenering: ze slagen erin perceptuele concepten letterlijk te interpreteren, maar falen in het construeren van visuele abstracties voor symbolische taken, waar gebrekkige redenering de prestaties schaadt. Deze resultaten benadrukken wederkerige cross-modale redenering als een kritieke grens voor het mogelijk maken van ware omnimodale generatie.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for seamlessly unifying text and image understanding and generation. However, prevailing evaluations treat these abilities in isolation, such that tasks with multimodal inputs and outputs are scored primarily through unimodal reasoning, i.e., textual benchmarks emphasize language-based reasoning, while visual benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce ROVER to address this pressing need to test reciprocal cross-modal reasoning, the use of one modality to guide, verify, or refine outputs in the other, an ability central to the vision of unified multimodal intelligence. ROVER is a human-annotated benchmark that explicitly targets reciprocal cross-modal reasoning, which contains 1312 tasks grounded in 1876 images, spanning two complementary settings. Verbally-augmented reasoning for visual generation evaluates whether models can use verbal prompts and reasoning chains to guide faithful image synthesis. Visually-augmented reasoning for verbal generation evaluates whether models can generate intermediate visualizations that strengthen their own reasoning processes for question answering. Experiments on 17 unified models reveal two key findings: (i) Cross-modal reasoning determines visual generation quality, with interleaved models significantly outperforming non-interleaved ones; notably, combining strong unimodal models fails to achieve comparable reasoning. (ii) Models show dissociation between physical and symbolic reasoning: they succeed at interpreting perceptual concepts literally but fail to construct visual abstractions for symbolic tasks, where faulty reasoning harms performance. These results highlight reciprocal cross-modal reasoning as a critical frontier for enabling true omnimodal generation.
PDF311December 2, 2025