ChatPaper.aiChatPaper

UniREditBench: Ein einheitlicher Benchmark für bildbasiertes Bearbeiten auf Grundlage des logischen Denkens

UniREditBench: A Unified Reasoning-based Image Editing Benchmark

November 3, 2025
papers.authors: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang
cs.AI

papers.abstract

Jüngste Fortschritte bei multimodalen generativen Modellen haben erhebliche Verbesserungen in der Bildbearbeitung bewirkt. Allerdings haben aktuelle generative Modelle nach wie vor Schwierigkeiten mit der Bewältigung vielfältiger und komplexer Bildbearbeitungsaufgaben, die implizites Reasoning erfordern, was den Bedarf an einem umfassenden Benchmark zur systematischen Bewertung ihrer Leistung in verschiedenen Reasoning-Szenarien unterstreicht. Bestehende Benchmarks konzentrieren sich primär auf die Transformation von Einzelobjekt-Attributen in realistischen Szenarien, die zwar effektiv sind, jedoch mit zwei Hauptproblemen konfrontiert sind: (1) sie vernachlässigen weitgehend Multi-Objekt-Interaktionen sowie Spielwelt-Szenarien mit menschendefinierten Regeln, die in realen Anwendungen häufig vorkommen; (2) sie stützen sich nur auf Textreferenzen zur Bewertung der generierten Bilder, was insbesondere in komplexen Reasoning-Szenarien zu systematischen Fehlurteilen führen kann. Daher schlägt diese Arbeit UniREditBench vor, einen einheitlichen Benchmark für die Reasoning-basierte Bildbearbeitungsbewertung. Er umfasst 2.700 sorgfältig kuratierte Samples, die sowohl Real- als auch Spielwelt-Szenarien in 8 Hauptdimensionen und 18 Subdimensionen abdecken. Zur Verbesserung der Bewertungszuverlässigkeit führen wir eine multimodale Dual-Referenz-Evaluation ein, die für jede Probenbewertung sowohl textuelle als auch Ground-Truth-Bildreferenzen bereitstellt. Darüber hinaus entwerfen wir eine automatisierte Multi-Szenario-Datensynthese-Pipeline und konstruieren UniREdit-Data-100K, einen groß angelegten synthetischen Datensatz mit hochwertigen Chain-of-Thought (CoT) Reasoning-Annotationen. Wir feintunen Bagel auf diesem Datensatz und entwickeln UniREdit-Bagel, das substantiale Verbesserungen sowohl in In-Domain- als auch Out-of-Distribution-Settings demonstriert. Durch gründliches Benchmarking sowohl quelloffener als auch proprietärer Bildbearbeitungsmodelle zeigen wir deren Stärken und Schwächen in verschiedenen Aspekten auf.
English
Recent advances in multi-modal generative models have driven substantial improvements in image editing. However, current generative models still struggle with handling diverse and complex image editing tasks that require implicit reasoning, underscoring the need for a comprehensive benchmark to systematically assess their performance across various reasoning scenarios. Existing benchmarks primarily focus on single-object attribute transformation in realistic scenarios, which, while effective, encounter two key challenges: (1) they largely overlook multi-object interactions as well as game-world scenarios that involve human-defined rules, which are common in real-life applications; (2) they only rely on textual references to evaluate the generated images, potentially leading to systematic misjudgments, especially in complex reasoning scenarios. To this end, this work proposes UniREditBench, a unified benchmark for reasoning-based image editing evaluation. It comprises 2,700 meticulously curated samples, covering both real- and game-world scenarios across 8 primary dimensions and 18 sub-dimensions. To improve evaluation reliability, we introduce multimodal dual-reference evaluation, providing both textual and ground-truth image references for each sample assessment. Furthermore, we design an automated multi-scenario data synthesis pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel on this dataset and develop UniREdit-Bagel, demonstrating substantial improvements in both in-domain and out-of-distribution settings. Through thorough benchmarking of both open-source and closed-source image editing models, we reveal their strengths and weaknesses across various aspects.
PDF381January 19, 2026