ChatPaper.aiChatPaper

UnicEdit-10M: Een dataset en benchmark die de schaal-kwaliteitsbarrière doorbreekt via geünificeerde verificatie voor redenering-verrijkte bewerkingen

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

December 1, 2025
Auteurs: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI

Samenvatting

Met de snelle vooruitgang van krachtige multimodale modellen zoals GPT-4o, Nano Banana en Seedream 4.0 op het gebied van beeldbewerking, wordt de prestatiekloof tussen closed-source en open-source modellen groter. Dit komt voornamelijk door de schaarste aan grootschalige, hoogwaardige trainingsdata en uitgebreide benchmarks die modelzwaktes kunnen diagnosticeren bij diverse bewerkingsgedragingen. Bestaande methoden voor dataconstructie kampen met een schaal-kwaliteit-afweging: menselijke annotaties zijn hoogwaardig maar niet schaalbaar, terwijl geautomatiseerde pijplijnen lijden onder foutpropagatie en ruis. Om dit aan te pakken, introduceren we een lichtgewicht datapijplijn die multi-toolchains vervangt door een end-to-end model en een uniforme post-verificatiefase. Voor schaalbare kwaliteitscontrole trainen we een 7B dual-task expertmodel, Qwen-Verify, voor efficiënte foutdetectie en herschrijving van instructies. Deze pijplijn resulteert in UnicEdit-10M, een dataset van 10 miljoen items die diverse basale en complexe bewerkingstaken omspant. We stellen ook UnicBench voor, een algemene benchmark die verder gaat dan basisbewerkingen om expliciet ruimtelijk en kennisdrijvend redeneren te beoordelen. Om fijnmazige diagnose mogelijk te maken, introduceren we nieuwe metrieken, waaronder Non-edit Consistentie en Redeneernauwkeurigheid. Onze analyse van mainstream modellen op UnicBench onthult hun beperkingen en biedt duidelijke richtingen voor toekomstig onderzoek.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.
PDF11December 4, 2025