UniREditBench: Ein einheitlicher Benchmark für bildbasiertes Bearbeiten auf Grundlage des logischen Denkens
UniREditBench: A Unified Reasoning-based Image Editing Benchmark
November 3, 2025
papers.authors: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen generativen Modellen haben erhebliche Verbesserungen in der Bildbearbeitung bewirkt. Allerdings haben aktuelle generative Modelle nach wie vor Schwierigkeiten mit der Bewältigung vielfältiger und komplexer Bildbearbeitungsaufgaben, die implizites Reasoning erfordern, was den Bedarf an einem umfassenden Benchmark zur systematischen Bewertung ihrer Leistung in verschiedenen Reasoning-Szenarien unterstreicht. Bestehende Benchmarks konzentrieren sich primär auf die Transformation von Einzelobjekt-Attributen in realistischen Szenarien, die zwar effektiv sind, jedoch mit zwei Hauptproblemen konfrontiert sind: (1) sie vernachlässigen weitgehend Multi-Objekt-Interaktionen sowie Spielwelt-Szenarien mit menschendefinierten Regeln, die in realen Anwendungen häufig vorkommen; (2) sie stützen sich nur auf Textreferenzen zur Bewertung der generierten Bilder, was insbesondere in komplexen Reasoning-Szenarien zu systematischen Fehlurteilen führen kann. Daher schlägt diese Arbeit UniREditBench vor, einen einheitlichen Benchmark für die Reasoning-basierte Bildbearbeitungsbewertung. Er umfasst 2.700 sorgfältig kuratierte Samples, die sowohl Real- als auch Spielwelt-Szenarien in 8 Hauptdimensionen und 18 Subdimensionen abdecken. Zur Verbesserung der Bewertungszuverlässigkeit führen wir eine multimodale Dual-Referenz-Evaluation ein, die für jede Probenbewertung sowohl textuelle als auch Ground-Truth-Bildreferenzen bereitstellt. Darüber hinaus entwerfen wir eine automatisierte Multi-Szenario-Datensynthese-Pipeline und konstruieren UniREdit-Data-100K, einen groß angelegten synthetischen Datensatz mit hochwertigen Chain-of-Thought (CoT) Reasoning-Annotationen. Wir feintunen Bagel auf diesem Datensatz und entwickeln UniREdit-Bagel, das substantiale Verbesserungen sowohl in In-Domain- als auch Out-of-Distribution-Settings demonstriert. Durch gründliches Benchmarking sowohl quelloffener als auch proprietärer Bildbearbeitungsmodelle zeigen wir deren Stärken und Schwächen in verschiedenen Aspekten auf.
English
Recent advances in multi-modal generative models have driven substantial
improvements in image editing. However, current generative models still
struggle with handling diverse and complex image editing tasks that require
implicit reasoning, underscoring the need for a comprehensive benchmark to
systematically assess their performance across various reasoning scenarios.
Existing benchmarks primarily focus on single-object attribute transformation
in realistic scenarios, which, while effective, encounter two key challenges:
(1) they largely overlook multi-object interactions as well as game-world
scenarios that involve human-defined rules, which are common in real-life
applications; (2) they only rely on textual references to evaluate the
generated images, potentially leading to systematic misjudgments, especially in
complex reasoning scenarios. To this end, this work proposes UniREditBench, a
unified benchmark for reasoning-based image editing evaluation. It comprises
2,700 meticulously curated samples, covering both real- and game-world
scenarios across 8 primary dimensions and 18 sub-dimensions. To improve
evaluation reliability, we introduce multimodal dual-reference evaluation,
providing both textual and ground-truth image references for each sample
assessment. Furthermore, we design an automated multi-scenario data synthesis
pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with
high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel
on this dataset and develop UniREdit-Bagel, demonstrating substantial
improvements in both in-domain and out-of-distribution settings. Through
thorough benchmarking of both open-source and closed-source image editing
models, we reveal their strengths and weaknesses across various aspects.