ChatPaper.aiChatPaper

ROVER: 전방위적 생성을 위한 상호 교차 모달 추론 성능 평가

ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

November 3, 2025
저자: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI

초록

통합 멀티모달 모델(UMMs)은 텍스트와 이미지 이해 및 생성을 원활하게 통합하는 강력한 패러다임으로 부상했습니다. 그러나 기존 평가 방식은 이러한 능력을 분리하여 접근하는데, 멀티모달 입출력을 수반하는 과제도 단일 모드 추론을 통해 주로 평가됩니다. 즉, 텍스트 기반 벤치마크는 언어적 추론을 강조하는 반면, 시각 벤치마크는 픽셀에 나타난 추론 결과를 중점적으로 평가합니다. 본 연구은 통합 멀티모달 인텔리전스의 핵심 능력인 한 모달리티를 사용해 다른 모달리티의 출력을 안내, 검증 또는 개선하는 상호 교차 모달 추론을 평가할 시급한 필요를 해결하기 위해 ROVER를 소개합니다. ROVER는 상호 교차 모달 추론을 명시적으로 대상으로 하는 인간 주석 벤치마크로, 1876개 이미지에 기반한 1312개 과제를 포함하며 두 가지 상호 보완적 설정을 포괄합니다. 시각 생성을 위한 언어적 증강 추론은 모델이 언어 프롬프트와 추론 체인을 사용하여 정확한 이미지 합성을 안내할 수 있는지 평가합니다. 언어 생성을 위한 시각적 증강 추론은 모델이 질의응답을 위한 자체 추론 과정을 강화하는 중간 시각화를 생성할 수 있는지 평가합니다. 17개 통합 모델에 대한 실험은 두 가지 핵심 결과를 보여줍니다: (i) 교차 모달 추론이 시각 생성 품질을 결정하며, 인터리빙 모델이 비인터리빙 모델을 크게 앞섭니다. 특히 강력한 단일 모달 모델들을 결합해도 비교 가능한 추론 성능을 달성하지 못합니다. (ii) 모델들은 물리적 추론과 상징적 추론 간 분리 현상을 보입니다: 지각적 개념을 문자 그대로 해석하는 데는 성공하지만 상징적 과제를 위한 시각적 추상화를 구성하는 데 실패하며, 이때 결함 있는 추론이 성능을 저해합니다. 이러한 결과는 진정한 범모달 생성을 가능하게 하는 중요한 최전선으로서 상호 교차 모달 추론의 중요성을 부각시킵니다.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for seamlessly unifying text and image understanding and generation. However, prevailing evaluations treat these abilities in isolation, such that tasks with multimodal inputs and outputs are scored primarily through unimodal reasoning, i.e., textual benchmarks emphasize language-based reasoning, while visual benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce ROVER to address this pressing need to test reciprocal cross-modal reasoning, the use of one modality to guide, verify, or refine outputs in the other, an ability central to the vision of unified multimodal intelligence. ROVER is a human-annotated benchmark that explicitly targets reciprocal cross-modal reasoning, which contains 1312 tasks grounded in 1876 images, spanning two complementary settings. Verbally-augmented reasoning for visual generation evaluates whether models can use verbal prompts and reasoning chains to guide faithful image synthesis. Visually-augmented reasoning for verbal generation evaluates whether models can generate intermediate visualizations that strengthen their own reasoning processes for question answering. Experiments on 17 unified models reveal two key findings: (i) Cross-modal reasoning determines visual generation quality, with interleaved models significantly outperforming non-interleaved ones; notably, combining strong unimodal models fails to achieve comparable reasoning. (ii) Models show dissociation between physical and symbolic reasoning: they succeed at interpreting perceptual concepts literally but fail to construct visual abstractions for symbolic tasks, where faulty reasoning harms performance. These results highlight reciprocal cross-modal reasoning as a critical frontier for enabling true omnimodal generation.
PDF311January 19, 2026