Voorbij de Pixels: Een Benchmark voor Redeneringsgeïnformeerde Visuele Bewerking
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing
April 3, 2025
Auteurs: Xiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) hebben aanzienlijke vooruitgang geboekt in visueel begrip en generatie, maar ze blijven uitdagingen ondervinden bij Algemeen Visueel Bewerken, met name in het volgen van complexe instructies, het behouden van uiterlijke consistentie en het ondersteunen van flexibele invoerformaten. Om deze kloof te overbruggen, introduceren we RISEBench, de eerste benchmark voor het evalueren van Reasoning-Informed viSual Editing (RISE). RISEBench richt zich op vier belangrijke redeneertypen: Temporeel, Causaal, Ruimtelijk en Logisch Redeneren. We hebben hoogwaardige testcases samengesteld voor elke categorie en stellen een evaluatieraamwerk voor dat Instructie Redeneren, Uiterlijke Consistentie en Visuele Geloofwaardigheid beoordeelt met zowel menselijke beoordelaars als een LMM-als-beoordelaar-benadering. Onze experimenten laten zien dat GPT-4o-Native aanzienlijk beter presteert dan andere open-source en propriëtaire modellen, maar zelfs dit state-of-the-art systeem worstelt met logische redeneertaken, wat een onderbelicht gebied blijft. Als eerste stap beoogt RISEBench fundamentele inzichten te bieden in redeneringsbewust visueel bewerken en toekomstig onderzoek te stimuleren. Hoewel het nog in de beginfase is, zijn we vastbesloten om de benchmark continu uit te breiden en te verfijnen om meer uitgebreide, betrouwbare en schaalbare evaluaties van next-generation multimodale systemen te ondersteunen. Onze code en gegevens zullen worden vrijgegeven op https://github.com/PhoenixZ810/RISEBench.
English
Large Multi-modality Models (LMMs) have made significant progress in visual
understanding and generation, but they still face challenges in General Visual
Editing, particularly in following complex instructions, preserving appearance
consistency, and supporting flexible input formats. To address this gap, we
introduce RISEBench, the first benchmark for evaluating Reasoning-Informed
viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal,
Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for
each category and propose an evaluation framework that assesses Instruction
Reasoning, Appearance Consistency, and Visual Plausibility with both human
judges and an LMM-as-a-judge approach. Our experiments reveal that while
GPT-4o-Native significantly outperforms other open-source and proprietary
models, even this state-of-the-art system struggles with logical reasoning
tasks, highlighting an area that remains underexplored. As an initial effort,
RISEBench aims to provide foundational insights into reasoning-aware visual
editing and to catalyze future research. Though still in its early stages, we
are committed to continuously expanding and refining the benchmark to support
more comprehensive, reliable, and scalable evaluations of next-generation
multimodal systems. Our code and data will be released at
https://github.com/PhoenixZ810/RISEBench.Summary
AI-Generated Summary