UnicEdit-10M: Un Dataset e Benchmark che Superano la Barriera Scala-Qualità tramite Verifica Unificata per Modifiche Arricchite di Ragionamento
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
December 1, 2025
Autori: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI
Abstract
Con i rapidi progressi di potenti modelli multimodali come GPT-4o, Nano Banana e Seedream 4.0 nell'ambito dell'Image Editing, il divario prestazionale tra modelli closed-source e open-source si sta ampliando, principalmente a causa della scarsità di dati di addestramento su larga scala e di alta qualità, nonché di benchmark completi in grado di diagnosticare le debolezze dei modelli attraverso comportamenti di editing diversificati. I metodi esistenti per la costruzione di dati affrontano un compromesso tra scala e qualità: le annotazioni umane sono di alta qualità ma non scalabili, mentre le pipeline automatizzate soffrono di propagazione degli errori e rumore. Per affrontare questo problema, introduciamo una pipeline dati leggera che sostituisce le multi-toolchain con un modello end-to-end e una fase unificata di post-verifica. Per un controllo di qualità scalabile, addestriamo un modello esperto da 7B per doppio compito, Qwen-Verify, per il rilevamento efficiente degli errori e la nuova didascalia delle istruzioni. Questa pipeline produce UnicEdit-10M, un dataset di 10 milioni di elementi che abbraccia vari task di editing, sia basilari che complessi. Proponiamo anche UnicBench, un benchmark generale che si estende oltre le modifiche di base per valutare esplicitamente il ragionamento spaziale e guidato dalla conoscenza. Per consentire una diagnosi granulare, introduciamo nuove metriche, tra cui la Coerenza delle Non-modifiche e l'Accuratezza del Ragionamento. La nostra analisi dei modelli mainstream su UnicBench ne rivela i limiti e fornisce direzioni chiare per la ricerca futura.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.