ChatPaper.aiChatPaper

ROVER: オムニモーダル生成のための相互的クロスモーダル推論のベンチマーキング

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

November 3, 2025
著者: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI

要旨

統合マルチモーダルモデル(UMM)は、テキストと画像の理解・生成をシームレスに統合する強力なパラダイムとして登場した。しかし、従来の評価ではこれらの能力が個別に扱われており、マルチモーダルな入出力を伴うタスクが主に単一モーダルの推論を通じて評価されている。すなわち、テキストベースのベンチマークは言語に基づく推論を重視し、視覚ベースのベンチマークは画素に現れる推論結果を重視する。我々は、統合マルチモーダル知能のビジョンの中核をなす能力である、異なるモーダル間で相互に導出・検証・洗練させる「相互クロスモーダル推論」をテストする喫緊の要請に応えるため、ROVERを提案する。ROVERは、相互クロスモーダル推論を明示的に対象とした人間注釈付きベンチマークであり、1876枚の画像に基づく1312のタスクから構成され、互いに補完的な2つの設定をカバーする。(1) 視覚生成のための言語補完推論:言語プロンプトと推論連鎖を用いて忠実な画像合成を導出できるかを評価する。(2) 言語生成のための視覚補完推論:質問応答における自らの推論プロセスを強化する中間視覚化を生成できるかを評価する。17の統合モデルを用いた実験から、2つの重要な知見が得られた。(i) クロスモーダル推論が視覚生成の品質を決定し、インターリーブ型モデルが非インターリーブ型を大幅に上回った。特に、強力な単モーダルモデルの組み合わせでは同等の推論能力が達成されない。(ii) モデルは物理的推論と記号的推論の間に解離を示す:知覚的概念の逐語的解釈には成功するが、記号的タスクにおける視覚的抽象化の構築には失敗し、誤った推論が性能を損なう。これらの結果は、真の全モーダル生成を実現する上で、相互クロスモーダル推論が重要なフロンティアであることを示唆している。
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for seamlessly unifying text and image understanding and generation. However, prevailing evaluations treat these abilities in isolation, such that tasks with multimodal inputs and outputs are scored primarily through unimodal reasoning, i.e., textual benchmarks emphasize language-based reasoning, while visual benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce ROVER to address this pressing need to test reciprocal cross-modal reasoning, the use of one modality to guide, verify, or refine outputs in the other, an ability central to the vision of unified multimodal intelligence. ROVER is a human-annotated benchmark that explicitly targets reciprocal cross-modal reasoning, which contains 1312 tasks grounded in 1876 images, spanning two complementary settings. Verbally-augmented reasoning for visual generation evaluates whether models can use verbal prompts and reasoning chains to guide faithful image synthesis. Visually-augmented reasoning for verbal generation evaluates whether models can generate intermediate visualizations that strengthen their own reasoning processes for question answering. Experiments on 17 unified models reveal two key findings: (i) Cross-modal reasoning determines visual generation quality, with interleaved models significantly outperforming non-interleaved ones; notably, combining strong unimodal models fails to achieve comparable reasoning. (ii) Models show dissociation between physical and symbolic reasoning: they succeed at interpreting perceptual concepts literally but fail to construct visual abstractions for symbolic tasks, where faulty reasoning harms performance. These results highlight reciprocal cross-modal reasoning as a critical frontier for enabling true omnimodal generation.
PDF311January 19, 2026