Envisager au-delà des pixels : Évaluation de l'édition visuelle informée par le raisonnement
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
April 3, 2025
Auteurs: Xiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan
cs.AI
Résumé
Les modèles multimodaux de grande taille (LMMs) ont réalisé des progrès significatifs dans la compréhension et la génération visuelles, mais ils rencontrent encore des défis dans l'édition visuelle générale, notamment en ce qui concerne le suivi d'instructions complexes, la préservation de la cohérence d'apparence et la prise en charge de formats d'entrée flexibles. Pour combler cette lacune, nous introduisons RISEBench, le premier benchmark pour l'évaluation de l'édition visuelle informée par le raisonnement (RISE). RISEBench se concentre sur quatre types de raisonnement clés : le raisonnement temporel, causal, spatial et logique. Nous avons sélectionné des cas de test de haute qualité pour chaque catégorie et proposons un cadre d'évaluation qui examine le raisonnement des instructions, la cohérence d'apparence et la plausibilité visuelle à la fois par des juges humains et une approche LMM-comme-juge. Nos expériences révèlent que bien que GPT-4o-Native surpasse significativement les autres modèles open-source et propriétaires, même ce système de pointe éprouve des difficultés avec les tâches de raisonnement logique, mettant en lumière un domaine encore peu exploré. En tant qu'effort initial, RISEBench vise à fournir des insights fondamentaux sur l'édition visuelle consciente du raisonnement et à catalyser les recherches futures. Bien qu'il en soit encore à ses débuts, nous nous engageons à continuer d'étendre et d'affiner le benchmark pour soutenir des évaluations plus complètes, fiables et évolutives des systèmes multimodaux de nouvelle génération. Notre code et nos données seront disponibles sur https://github.com/PhoenixZ810/RISEBench.
English
Large Multi-modality Models (LMMs) have made significant progress in visual
understanding and generation, but they still face challenges in General Visual
Editing, particularly in following complex instructions, preserving appearance
consistency, and supporting flexible input formats. To address this gap, we
introduce RISEBench, the first benchmark for evaluating Reasoning-Informed
viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal,
Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for
each category and propose an evaluation framework that assesses Instruction
Reasoning, Appearance Consistency, and Visual Plausibility with both human
judges and an LMM-as-a-judge approach. Our experiments reveal that while
GPT-4o-Native significantly outperforms other open-source and proprietary
models, even this state-of-the-art system struggles with logical reasoning
tasks, highlighting an area that remains underexplored. As an initial effort,
RISEBench aims to provide foundational insights into reasoning-aware visual
editing and to catalyze future research. Though still in its early stages, we
are committed to continuously expanding and refining the benchmark to support
more comprehensive, reliable, and scalable evaluations of next-generation
multimodal systems. Our code and data will be released at
https://github.com/PhoenixZ810/RISEBench.Summary
AI-Generated Summary