UniREditBench: Een Uniforme Benchmark voor Beeldbewerking op Basis van Redeneren
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
Auteurs: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
Samenvatting
Recente vooruitgang in multimodale generatieve modellen heeft aanzienlijke verbeteringen in beeldbewerking mogelijk gemaakt. Huidige generatieve modellen hebben echter nog steeds moeite met het verwerken van diverse en complexe beeldbewerkings taken die impliciete redenering vereisen, wat de behoefte aan een uitgebreide benchmark benadrukt om hun prestaties systematisch te evalueren in verschillende redeneerscenario's. Bestaande benchmarks richten zich voornamelijk op attribuuttransformatie van enkelvoudige objecten in realistische scenario's, die, hoewel effectief, met twee belangrijke uitdagingen worden geconfronteerd: (1) ze negeren grotendeels interacties tussen meerdere objecten evenals spelwereldscenario's die door mensen gedefinieerde regels omvatten, wat gebruikelijk is in real-life toepassingen; (2) ze vertrouwen alleen op tekstuele referenties om de gegenereerde beelden te evalueren, wat mogelijk tot systematische beoordelingsfouten leidt, vooral in complexe redeneerscenario's. Daarom stelt dit werk UniREditBench voor, een uniforme benchmark voor op redenering gebaseerde evaluatie van beeldbewerking. Het omvat 2.700 zorgvuldig samengestelde samples, die zowel real-world als spelwereldscenario's bestrijken over 8 primaire dimensies en 18 sub-dimensies. Om de betrouwbaarheid van de evaluatie te verbeteren, introduceren we multimodale dubbele-referentie-evaluatie, waarbij zowel tekstuele als grondwaarheid-beeldreferenties voor elke samplebeoordeling worden verstrekt. Verder ontwerpen we een geautomatiseerde pijplijn voor gegevenssynthese in meerdere scenario's en construeren we UniREdit-Data-100K, een grootschalige synthetische dataset met hoogwaardige chain-of-thought (CoT) redeneerannotaties. We fine-tunen Bagel op deze dataset en ontwikkelen UniREdit-Bagel, wat aanzienlijke verbeteringen demonstreert in zowel in-domein als out-of-distribution settings. Door grondige benchmarking van zowel open-source als closed-source beeldbewerkingsmodellen, onthullen we hun sterke en zwakke punten op verschillende aspecten.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.