Voorbij de Pixels: Een Benchmark voor Redeneringsgeïnformeerde Visuele Bewerking

Samenvatting

Grote Multimodale Modellen (LMMs) hebben aanzienlijke vooruitgang geboekt in visueel begrip en generatie, maar ze blijven uitdagingen ondervinden bij Algemeen Visueel Bewerken, met name in het volgen van complexe instructies, het behouden van uiterlijke consistentie en het ondersteunen van flexibele invoerformaten. Om deze kloof te overbruggen, introduceren we RISEBench, de eerste benchmark voor het evalueren van Reasoning-Informed viSual Editing (RISE). RISEBench richt zich op vier belangrijke redeneertypen: Temporeel, Causaal, Ruimtelijk en Logisch Redeneren. We hebben hoogwaardige testcases samengesteld voor elke categorie en stellen een evaluatieraamwerk voor dat Instructie Redeneren, Uiterlijke Consistentie en Visuele Geloofwaardigheid beoordeelt met zowel menselijke beoordelaars als een LMM-als-beoordelaar-benadering. Onze experimenten laten zien dat GPT-4o-Native aanzienlijk beter presteert dan andere open-source en propriëtaire modellen, maar zelfs dit state-of-the-art systeem worstelt met logische redeneertaken, wat een onderbelicht gebied blijft. Als eerste stap beoogt RISEBench fundamentele inzichten te bieden in redeneringsbewust visueel bewerken en toekomstig onderzoek te stimuleren. Hoewel het nog in de beginfase is, zijn we vastbesloten om de benchmark continu uit te breiden en te verfijnen om meer uitgebreide, betrouwbare en schaalbare evaluaties van next-generation multimodale systemen te ondersteunen. Onze code en gegevens zullen worden vrijgegeven op https://github.com/PhoenixZ810/RISEBench.

English

Large Multi-modality Models (LMMs) have made significant progress in visual understanding and generation, but they still face challenges in General Visual Editing, particularly in following complex instructions, preserving appearance consistency, and supporting flexible input formats. To address this gap, we introduce RISEBench, the first benchmark for evaluating Reasoning-Informed viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal, Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for each category and propose an evaluation framework that assesses Instruction Reasoning, Appearance Consistency, and Visual Plausibility with both human judges and an LMM-as-a-judge approach. Our experiments reveal that while GPT-4o-Native significantly outperforms other open-source and proprietary models, even this state-of-the-art system struggles with logical reasoning tasks, highlighting an area that remains underexplored. As an initial effort, RISEBench aims to provide foundational insights into reasoning-aware visual editing and to catalyze future research. Though still in its early stages, we are committed to continuously expanding and refining the benchmark to support more comprehensive, reliable, and scalable evaluations of next-generation multimodal systems. Our code and data will be released at https://github.com/PhoenixZ810/RISEBench.

Voorbij de Pixels: Een Benchmark voor Redeneringsgeïnformeerde Visuele Bewerking

Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Samenvatting

Support