ROVER : Évaluation comparative du raisonnement réciproque intermodal pour la génération omnimodale
ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation
November 3, 2025
papers.authors: Yongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang
cs.AI
papers.abstract
Les modèles multimodaux unifiés (UMM) sont apparus comme un paradigme puissant pour unifier de manière transparente la compréhension et la génération de texte et d'images. Cependant, les évaluations dominantes traitent ces capacités de manière isolée, de sorte que les tâches avec des entrées et des sorties multimodales sont notées principalement via un raisonnement unimodal, c'est-à-dire que les benchmarks textuels privilégient le raisonnement linguistique, tandis que les benchmarks visuels se concentrent sur les résultats du raisonnement manifestés dans les pixels. Nous présentons ROVER pour répondre à ce besoin pressant de tester le raisonnement réciproque cross-modal, c'est-à-dire l'utilisation d'une modalité pour guider, vérifier ou affiner les sorties dans l'autre, une capacité centrale pour la vision d'une intelligence multimodale unifiée. ROVER est un benchmark annoté manuellement qui cible explicitement le raisonnement réciproque cross-modal ; il contient 1312 tâches ancrées dans 1876 images, couvrant deux cadres complémentaires. Le raisonnement verbalement augmenté pour la génération visuelle évalue si les modèles peuvent utiliser des invites verbales et des chaînes de raisonnement pour guider une synthèse d'image fidèle. Le raisonnement visuellement augmenté pour la génération verbale évalue si les modèles peuvent générer des visualisations intermédiaires qui renforcent leurs propres processus de raisonnement pour répondre à des questions. Des expériences sur 17 modèles unifiés révèlent deux résultats clés : (i) Le raisonnement cross-modal détermine la qualité de la génération visuelle, les modèles entrelacés surpassant significativement les non-entrelacés ; fait notable, la combinaison de modèles unimodaux performants n'atteint pas un raisonnement comparable. (ii) Les modèles montrent une dissociation entre raisonnement physique et symbolique : ils réussissent à interpréter littéralement des concepts perceptifs mais échouent à construire des abstractions visuelles pour des tâches symboliques, où un raisonnement défaillant nuit aux performances. Ces résultats soulignent le raisonnement réciproque cross-modal comme une frontière critique pour permettre une véritable génération omnimodale.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm for
seamlessly unifying text and image understanding and generation. However,
prevailing evaluations treat these abilities in isolation, such that tasks with
multimodal inputs and outputs are scored primarily through unimodal reasoning,
i.e., textual benchmarks emphasize language-based reasoning, while visual
benchmarks emphasize reasoning outcomes manifested in the pixels. We introduce
ROVER to address this pressing need to test reciprocal cross-modal reasoning,
the use of one modality to guide, verify, or refine outputs in the other, an
ability central to the vision of unified multimodal intelligence. ROVER is a
human-annotated benchmark that explicitly targets reciprocal cross-modal
reasoning, which contains 1312 tasks grounded in 1876 images, spanning two
complementary settings. Verbally-augmented reasoning for visual generation
evaluates whether models can use verbal prompts and reasoning chains to guide
faithful image synthesis. Visually-augmented reasoning for verbal generation
evaluates whether models can generate intermediate visualizations that
strengthen their own reasoning processes for question answering. Experiments on
17 unified models reveal two key findings: (i) Cross-modal reasoning determines
visual generation quality, with interleaved models significantly outperforming
non-interleaved ones; notably, combining strong unimodal models fails to
achieve comparable reasoning. (ii) Models show dissociation between physical
and symbolic reasoning: they succeed at interpreting perceptual concepts
literally but fail to construct visual abstractions for symbolic tasks, where
faulty reasoning harms performance. These results highlight reciprocal
cross-modal reasoning as a critical frontier for enabling true omnimodal
generation.