UniREditBench : un benchmark unifié d'édition d'images basé sur le raisonnement
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
papers.authors: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
papers.abstract
Les récentes avancées des modèles génératifs multimodaux ont permis des améliorations substantielles en édition d'images. Cependant, les modèles génératifs actuels peinent encore à traiter des tâches d'édition d'images diverses et complexes nécessitant un raisonnement implicite, soulignant le besoin d'un benchmark complet pour évaluer systématiquement leurs performances dans divers scénarios de raisonnement. Les benchmarks existants se concentrent principalement sur la transformation d'attributs d'objets uniques dans des scénarios réalistes, lesquels, bien qu'utiles, rencontrent deux défis majeurs : (1) ils négligent largement les interactions multi-objets ainsi que les scénarios de monde-jeu impliquant des règles définies par l'humain, pourtant courants dans les applications réelles ; (2) ils s'appuient uniquement sur des références textuelles pour évaluer les images générées, risquant des erreurs d'évaluation systématiques, particulièrement dans les scénarios de raisonnement complexes. Pour pallier ces limites, ce travail propose UniREditBench, un benchmark unifié pour l'évaluation de l'édition d'images basée sur le raisonnement. Il comprend 2 700 échantillons soigneusement constitués, couvrant à la fois des scénarios réalistes et de monde-jeu à travers 8 dimensions principales et 18 sous-dimensions. Pour améliorer la fiabilité de l'évaluation, nous introduisons une évaluation double référence multimodale, fournissant à la fois des références textuelles et des images de vérité terrain pour chaque évaluation d'échantillon. De plus, nous concevons un pipeline automatisé de synthèse de données multi-scénarios et construisons UniREdit-Data-100K, un jeu de données synthétique à grande échelle avec des annotations de raisonnement en chaîne de pensée (CoT) de haute qualité. Nous affinons Bagel sur ce jeu de données et développons UniREdit-Bagel, démontrant des améliorations substantielles dans des contextes intra-domaines et hors-distribution. Par un benchmarking approfondi de modèles d'édition d'images open-source et propriétaires, nous révélons leurs forces et faiblesses sur divers aspects.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.