UnicEdit-10M: Ein Datensatz und Benchmark, der die Skalierbarkeits-Qualitäts-Barriere durch vereinheitlichte Verifikation für reasoning-angereicherte Editierungen durchbricht
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
December 1, 2025
papers.authors: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI
papers.abstract
Mit den rasanten Fortschritten leistungsstarker multimodaler Modelle wie GPT-4o, Nano Banana und Seedream 4.0 im Bereich der Bildbearbeitung vergrößert sich die Leistungslücke zwischen Closed-Source- und Open-Source-Modellen zunehmend. Dies ist hauptsächlich auf den Mangel an großvolumigen, hochwertigen Trainingsdaten und umfassenden Benchmarks zurückzuführen, die in der Lage sind, Modellschwächen über verschiedene Bearbeitungsverhalten hinweg zu diagnostizieren. Bestehende Methoden zur Datenerstellung stehen vor einem Skalierbarkeits-Qualitäts-Dilemma: menschliche Annotationen sind hochwertig, aber nicht skalierbar, während automatisierte Pipelines unter Fehlerfortpflanzung und Rauschen leiden. Um dies zu lösen, führen wir eine leichtgewichtige Datenpipeline ein, die Multi-Toolchains durch ein End-to-End-Modell und eine vereinheitlichte Nachverifizierungsstufe ersetzt. Für skalierbare Qualitätskontrolle trainieren wir ein 7B-Dual-Task-Expertenmodell, Qwen-Verify, zur effizienten Fehlererkennung und Instruktions-Neubeschriftung. Diese Pipeline erzeugt UnicEdit-10M, einen 10-Millionen-Datensatz, der diverse grundlegende und komplexe Bearbeitungsaufgaben abdeckt. Wir schlagen zudem UnicBench vor, einen allgemeinen Benchmark, der über grundlegende Bearbeitungen hinausgeht und räumliches sowie wissensbasiertes Reasoning explizit bewertet. Um eine feinkörnige Diagnose zu ermöglichen, führen wir neuartige Metriken ein, darunter Nicht-Bearbeitungs-Konsistenz und Reasoning-Genauigkeit. Unsere Analyse gängiger Modelle auf UnicBench deckt deren Grenzen auf und liefert klare Richtungen für zukünftige Forschung.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.