UniREditBench:統合型推論ベース画像編集ベンチマーク
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
著者: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
要旨
マルチモーダル生成モデルの最近の進歩は、画像編集技術に大幅な改善をもたらしている。しかし、現行の生成モデルは、暗黙的な推論を必要とする多様で複雑な画像編集タスクの処理において依然として課題を抱えており、様々な推論シナリオにわたる性能を体系的に評価する包括的ベンチマークの必要性が浮き彫りになっている。既存のベンチマークは主に現実的なシナリオにおける単一オブジェクトの属性変換に焦点を当てており、有効ではあるものの、二つの重大な課題に直面している:(1)実世界アプリケーションで一般的な、複数オブジェクト間の相互作用や人間が定義したルールを含むゲーム世界シナリオがほとんど考慮されていない;(2)生成画像の評価がテキスト参照のみに依存しており、特に複雑な推論シナリオでは体系的な誤判定を招く可能性がある。この課題に対処するため、本研究では推論ベース画像編集評価のための統一ベンチマーク「UniREditBench」を提案する。これは2,700件の入念に精選されたサンプルから構成され、8つの主要次元と18の副次元にわたって実世界とゲーム世界の両シナリオを網羅している。評価の信頼性向上のために、マルチモーダル二重参照評価を導入し、各サンプル評価に対してテキスト参照と正解画像参照の両方を提供する。さらに、自動化されたマルチシナリオデータ合成パイプラインを設計し、高品質な連鎖的思考(CoT)推論アノテーションを付与した大規模合成データセット「UniREdit-Data-100K」を構築した。このデータセットでBagelをファインチューニングし、ドメイン内設定とドメイン外設定の両方で大幅な改善を示す「UniREdit-Bagel」を開発した。オープンソースおよびクローズドソースの画像編集モデルに対する徹底的なベンチマーク評価を通じて、様々な側面におけるそれらの強みと弱点を明らかにしている。
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.