ROVER: Оценка взаимных кросс-модальных рассуждений для омнимодального порождения
ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
November 3, 2025
Авторы: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI
Аннотация
Унифицированные мультимодальные модели (UMM) стали мощной парадигмой для бесшовного объединения понимания и генерации текста и изображений. Однако преобладающие подходы к оценке рассматривают эти способности изолированно: задачи с мультимодальными входами и выходами оцениваются преимущественно через унимодальные рассуждения, то есть текстовые тесты делают акцент на языковых рассуждениях, а визуальные — на результатах рассуждений, проявляющихся в пикселях. Мы представляем ROVER для решения этой насущной потребности в проверке реципрокных кросс-модальных рассуждений — использования одной модальности для направления, проверки или уточнения выводов в другой, что является центральной способностью для реализации концепции унифицированного мультимодального интеллекта. ROVER — это размеченный человеком бенчмарк, явно нацеленный на реципрокные кросс-модальные рассуждения, который содержит 1312 заданий, основанных на 1876 изображениях, и охватывает два взаимодополняющих сценария. Вербально-усиленное рассуждение для визуальной генерации оценивает, могут ли модели использовать текстовые промпты и цепочки рассуждений для управления достоверным синтезом изображений. Визуально-усиленное рассуждение для вербальной генерации оценивает, могут ли модели генерировать промежуточные визуализации, укрепляющие их собственные процессы рассуждений для ответов на вопросы. Эксперименты с 17 унифицированными моделями выявили два ключевых результата: (i) Качество визуальной генерации определяется кросс-модальными рассуждениями, причем интерливинговые модели значительно превосходят неинтерливинговые; примечательно, что комбинация сильных унимодальных моделей не позволяет достичь сопоставимых рассуждений. (ii) Модели демонстрируют диссоциацию между физическими и символическими рассуждениями: они успешны в буквальной интерпретации перцептивных концепций, но не способны конструировать визуальные абстракции для символических задач, где ошибочные рассуждения снижают производительность. Эти результаты подчеркивают реципрокные кросс-модальные рассуждения как критически важный рубеж для достижения подлинной омнимодальной генерации.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for
seamlessly unifying text and image understanding and generation. However,
prevailing evaluations treat these abilities in isolation, such that tasks with
multimodal inputs and outputs are scored primarily through unimodal reasoning,
i.e., textual benchmarks emphasize language-based reasoning, while visual
benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce
ROVER to address this pressing need to test reciprocal cross-modal reasoning,
the use of one modality to guide, verify, or refine outputs in the other, an
ability central to the vision of unified multimodal intelligence. ROVER is a
human-annotated benchmark that explicitly targets reciprocal cross-modal
reasoning, which contains 1312 tasks grounded in 1876 images, spanning two
complementary settings. Verbally-augmented reasoning for visual generation
evaluates whether models can use verbal prompts and reasoning chains to guide
faithful image synthesis. Visually-augmented reasoning for verbal generation
evaluates whether models can generate intermediate visualizations that
strengthen their own reasoning processes for question answering. Experiments on
17 unified models reveal two key findings: (i) Cross-modal reasoning determines
visual generation quality, with interleaved models significantly outperforming
non-interleaved ones; notably, combining strong unimodal models fails to
achieve comparable reasoning. (ii) Models show dissociation between physical
and symbolic reasoning: they succeed at interpreting perceptual concepts
literally but fail to construct visual abstractions for symbolic tasks, where
faulty reasoning harms performance. These results highlight reciprocal
cross-modal reasoning as a critical frontier for enabling true omnimodal
generation.