UniREditBench: Een Uniforme Benchmark voor Beeldbewerking op Basis van Redeneren

Samenvatting

Recente vooruitgang in multimodale generatieve modellen heeft aanzienlijke verbeteringen in beeldbewerking mogelijk gemaakt. Huidige generatieve modellen hebben echter nog steeds moeite met het verwerken van diverse en complexe beeldbewerkings taken die impliciete redenering vereisen, wat de behoefte aan een uitgebreide benchmark benadrukt om hun prestaties systematisch te evalueren in verschillende redeneerscenario's. Bestaande benchmarks richten zich voornamelijk op attribuuttransformatie van enkelvoudige objecten in realistische scenario's, die, hoewel effectief, met twee belangrijke uitdagingen worden geconfronteerd: (1) ze negeren grotendeels interacties tussen meerdere objecten evenals spelwereldscenario's die door mensen gedefinieerde regels omvatten, wat gebruikelijk is in real-life toepassingen; (2) ze vertrouwen alleen op tekstuele referenties om de gegenereerde beelden te evalueren, wat mogelijk tot systematische beoordelingsfouten leidt, vooral in complexe redeneerscenario's. Daarom stelt dit werk UniREditBench voor, een uniforme benchmark voor op redenering gebaseerde evaluatie van beeldbewerking. Het omvat 2.700 zorgvuldig samengestelde samples, die zowel real-world als spelwereldscenario's bestrijken over 8 primaire dimensies en 18 sub-dimensies. Om de betrouwbaarheid van de evaluatie te verbeteren, introduceren we multimodale dubbele-referentie-evaluatie, waarbij zowel tekstuele als grondwaarheid-beeldreferenties voor elke samplebeoordeling worden verstrekt. Verder ontwerpen we een geautomatiseerde pijplijn voor gegevenssynthese in meerdere scenario's en construeren we UniREdit-Data-100K, een grootschalige synthetische dataset met hoogwaardige chain-of-thought (CoT) redeneerannotaties. We fine-tunen Bagel op deze dataset en ontwikkelen UniREdit-Bagel, wat aanzienlijke verbeteringen demonstreert in zowel in-domein als out-of-distribution settings. Door grondige benchmarking van zowel open-source als closed-source beeldbewerkingsmodellen, onthullen we hun sterke en zwakke punten op verschillende aspecten.

English

Recent advances in multi-modal generative models have driven substantial improvements in image editing. However, current generative models still struggle with handling diverse and complex image editing tasks that require implicit reasoning, underscoring the need for a comprehensive benchmark to systematically assess their performance across various reasoning scenarios. Existing benchmarks primarily focus on single-object attribute transformation in realistic scenarios, which, while effective, encounter two key challenges: (1) they largely overlook multi-object interactions as well as game-world scenarios that involve human-defined rules, which are common in real-life applications; (2) they only rely on textual references to evaluate the generated images, potentially leading to systematic misjudgments, especially in complex reasoning scenarios. To this end, this work proposes UniREditBench, a unified benchmark for reasoning-based image editing evaluation. It comprises 2,700 meticulously curated samples, covering both real- and game-world scenarios across 8 primary dimensions and 18 sub-dimensions. To improve evaluation reliability, we introduce multimodal dual-reference evaluation, providing both textual and ground-truth image references for each sample assessment. Furthermore, we design an automated multi-scenario data synthesis pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel on this dataset and develop UniREdit-Bagel, demonstrating substantial improvements in both in-domain and out-of-distribution settings. Through thorough benchmarking of both open-source and closed-source image editing models, we reveal their strengths and weaknesses across various aspects.

UniREditBench: Een Uniforme Benchmark voor Beeldbewerking op Basis van Redeneren

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

Samenvatting

Support