ChatPaper.aiChatPaper

ROVER: Evaluación del Razonamiento Recíproco Cross-Modal para la Generación Omnimodal

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

November 3, 2025
Autores: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI

Resumen

Los modelos multimodales unificados (UMMs) han surgido como un paradigma poderoso para unificar de manera fluida la comprensión y generación de texto e imágenes. Sin embargo, las evaluaciones predominantes tratan estas capacidades de forma aislada, de modo que las tareas con entradas y salidas multimodales se califican principalmente mediante razonamiento unimodal; es decir, los puntos de referencia textuales enfatizan el razonamiento basado en lenguaje, mientras que los puntos de referencia visuales enfatizan los resultados del razonamiento manifestados en los píxeles. Presentamos ROVER para abordar esta necesidad apremiante de evaluar el razonamiento recíproco cruzado, el uso de una modalidad para guiar, verificar o refinar los resultados en la otra, una capacidad central para la visión de una inteligencia multimodal unificada. ROVER es un punto de referencia anotado por humanos que se enfoca explícitamente en el razonamiento recíproco cruzado, el cual contiene 1312 tareas basadas en 1876 imágenes, abarcando dos escenarios complementarios. El razonamiento verbalmente aumentado para la generación visual evalúa si los modelos pueden utilizar instrucciones verbales y cadenas de razonamiento para guiar una síntesis de imágenes fiel. El razonamiento visualmente aumentado para la generación verbal evalúa si los modelos pueden generar visualizaciones intermedias que fortalezcan sus propios procesos de razonamiento para responder preguntas. Los experimentos en 17 modelos unificados revelan dos hallazgos clave: (i) El razonamiento cruzado determina la calidad de la generación visual, con modelos intercalados superando significativamente a los no intercalados; notablemente, combinar modelos unimodales fuertes no logra un razonamiento comparable. (ii) Los modelos muestran una disociación entre el razonamiento físico y simbólico: tienen éxito al interpretar conceptos perceptuales literalmente, pero fallan al construir abstracciones visuales para tareas simbólicas, donde un razonamiento defectuoso perjudica el rendimiento. Estos resultados destacan el razonamiento recíproco cruzado como una frontera crítica para permitir una verdadera generación omnimodal.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for seamlessly unifying text and image understanding and generation. However, prevailing evaluations treat these abilities in isolation, such that tasks with multimodal inputs and outputs are scored primarily through unimodal reasoning, i.e., textual benchmarks emphasize language-based reasoning, while visual benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce ROVER to address this pressing need to test reciprocal cross-modal reasoning, the use of one modality to guide, verify, or refine outputs in the other, an ability central to the vision of unified multimodal intelligence. ROVER is a human-annotated benchmark that explicitly targets reciprocal cross-modal reasoning, which contains 1312 tasks grounded in 1876 images, spanning two complementary settings. Verbally-augmented reasoning for visual generation evaluates whether models can use verbal prompts and reasoning chains to guide faithful image synthesis. Visually-augmented reasoning for verbal generation evaluates whether models can generate intermediate visualizations that strengthen their own reasoning processes for question answering. Experiments on 17 unified models reveal two key findings: (i) Cross-modal reasoning determines visual generation quality, with interleaved models significantly outperforming non-interleaved ones; notably, combining strong unimodal models fails to achieve comparable reasoning. (ii) Models show dissociation between physical and symbolic reasoning: they succeed at interpreting perceptual concepts literally but fail to construct visual abstractions for symbolic tasks, where faulty reasoning harms performance. These results highlight reciprocal cross-modal reasoning as a critical frontier for enabling true omnimodal generation.
PDF311January 19, 2026