ROVER: Avaliação do Raciocínio Recíproco Transmodal para Geração Omnimodal
ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
November 3, 2025
Autores: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI
Resumo
Os modelos multimodais unificados (UMMs) emergiram como um paradigma poderoso para unir perfeitamente a compreensão e geração de texto e imagem. No entanto, as avaliações predominantes tratam essas habilidades de forma isolada, de modo que tarefas com entradas e saídas multimodais são pontuadas principalmente por meio de raciocínio unimodal, ou seja, benchmarks textuais enfatizam o raciocínio baseado em linguagem, enquanto benchmarks visuais enfatizam resultados de raciocínio manifestados nos pixels. Apresentamos o ROVER para atender a esta necessidade premente de testar o raciocínio cruzado recíproco entre modalidades - o uso de uma modalidade para orientar, verificar ou refinar saídas na outra, uma habilidade central para a visão de inteligência multimodal unificada. O ROVER é um benchmark anotado por humanos que visa explicitamente o raciocínio cruzado recíproco entre modalidades, contendo 1312 tarefas baseadas em 1876 imagens, abrangendo duas configurações complementares. O raciocínio verbalmente aumentado para geração visual avalia se os modelos podem usar instruções verbais e cadeias de raciocínio para orientar a síntese fiel de imagens. O raciocínio visualmente aumentado para geração verbal avalia se os modelos podem gerar visualizações intermediárias que fortalecem seus próprios processos de raciocínio para resposta a perguntas. Experimentos em 17 modelos unificados revelam duas descobertas principais: (i) O raciocínio cruzado entre modalidades determina a qualidade da geração visual, com modelos intercalados superando significativamente os não intercalados; notavelmente, combinar modelos unimodais fortes não consegue alcançar um raciocínio comparável. (ii) Os modelos mostram dissociação entre raciocínio físico e simbólico: eles têm sucesso em interpretar conceitos perceptivos literalmente, mas falham em construir abstrações visuais para tarefas simbólicas, onde raciocínios falhos prejudicam o desempenho. Esses resultados destacam o raciocínio cruzado recíproco entre modalidades como uma fronteira crítica para permitir a verdadeira geração omnimodal.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for
seamlessly unifying text and image understanding and generation. However,
prevailing evaluations treat these abilities in isolation, such that tasks with
multimodal inputs and outputs are scored primarily through unimodal reasoning,
i.e., textual benchmarks emphasize language-based reasoning, while visual
benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce
ROVER to address this pressing need to test reciprocal cross-modal reasoning,
the use of one modality to guide, verify, or refine outputs in the other, an
ability central to the vision of unified multimodal intelligence. ROVER is a
human-annotated benchmark that explicitly targets reciprocal cross-modal
reasoning, which contains 1312 tasks grounded in 1876 images, spanning two
complementary settings. Verbally-augmented reasoning for visual generation
evaluates whether models can use verbal prompts and reasoning chains to guide
faithful image synthesis. Visually-augmented reasoning for verbal generation
evaluates whether models can generate intermediate visualizations that
strengthen their own reasoning processes for question answering. Experiments on
17 unified models reveal two key findings: (i) Cross-modal reasoning determines
visual generation quality, with interleaved models significantly outperforming
non-interleaved ones; notably, combining strong unimodal models fails to
achieve comparable reasoning. (ii) Models show dissociation between physical
and symbolic reasoning: they succeed at interpreting perceptual concepts
literally but fail to construct visual abstractions for symbolic tasks, where
faulty reasoning harms performance. These results highlight reciprocal
cross-modal reasoning as a critical frontier for enabling true omnimodal
generation.