UniREditBench: Benchmark Unificato per la Modifica delle Immagini Basato sul Ragionamento
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
Autori: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
Abstract
I recenti progressi nei modelli generativi multimodali hanno portato a sostanziali miglioramenti nell'editing delle immagini. Tuttavia, gli attuali modelli generativi continuano a incontrare difficoltà nella gestione di compiti di editing complessi e diversificati che richiedono ragionamento implicito, evidenziando la necessità di un benchmark completo per valutare sistematicamente le loro prestazioni in vari scenari di ragionamento. I benchmark esistenti si concentrano principalmente sulla trasformazione di attributi di oggetti singoli in scenari realistici, i quali, sebbene efficaci, presentano due sfide principali: (1) trascurano in larga misura le interazioni tra oggetti multipli e gli scenari di gioco che coinvolgono regole definite dall'uomo, comuni nelle applicazioni reali; (2) si basano esclusivamente su riferimenti testuali per valutare le immagini generate, rischiando potenziali giudizi errati sistematici, specialmente in scenari di ragionamento complessi. A tal fine, questo lavoro propone UniREditBench, un benchmark unificato per la valutazione dell'editing basato sul ragionamento. Comprende 2.700 campioni accuratamente curati, che coprono scenari reali e di gioco attraverso 8 dimensioni primarie e 18 sub-dimensioni. Per migliorare l'affidabilità della valutazione, introduciamo una valutazione multimodale a doppio riferimento, fornendo sia riferimenti testuali che immagini di ground-truth per ogni valutazione del campione. Inoltre, progettiamo una pipeline automatizzata di sintesi dati multi-scenario e costruiamo UniREdit-Data-100K, un ampio dataset sintetico con annotazioni di ragionamento a catena del pensiero (CoT) di alta qualità. Addestriamo Bagel su questo dataset e sviluppiamo UniREdit-Bagel, dimostrando sostanziali miglioramenti sia in contesti in-dominio che out-of-distribution. Attraverso un'analisi comparativa approfondita di modelli di editing open-source e closed-source, ne riveliamo punti di forza e debolezze in vari aspetti.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.