UnicEdit-10M : Un jeu de données et un benchmark brisant la barrière échelle-qualité via une vérification unifiée pour des édits enrichis par le raisonnement
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
December 1, 2025
papers.authors: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI
papers.abstract
Avec les progrès rapides de modèles multimodaux puissants tels que GPT-4o, Nano Banana et Seedream 4.0 en édition d'images, l'écart de performance entre les modèles propriétaires et open-source se creuse, principalement en raison de la rareté de données d'entraînement à grande échelle et de haute qualité, ainsi que de benchmarks exhaustifs capables de diagnostiquer les faiblesses des modèles sur divers comportements d'édition. Les méthodes existantes de construction de données sont confrontées à un compromis échelle-qualité : les annotations humaines sont de haute qualité mais non extensibles, tandis que les pipelines automatisés souffrent de propagation d'erreurs et de bruit. Pour résoudre ce problème, nous introduisons un pipeline de données léger qui remplace les chaînes d'outils multiples par un modèle de bout en bout et une étape unifiée de post-vérification. Pour un contrôle qualité extensible, nous entraînons un modèle expert à double tâche de 7B, Qwen-Verify, pour une détection efficace des échecs et un recaptioning des instructions. Ce pipeline produit UnicEdit-10M, un jeu de données à l'échelle de 10 millions couvrant diverses tâches d'édition basiques et complexes. Nous proposons également UnicBench, un benchmark général qui s'étend au-delà des éditions basiques pour évaluer explicitement le raisonnement spatial et axé sur les connaissances. Pour permettre un diagnostic granulaire, nous introduisons de nouvelles métriques, notamment la Cohérence des non-éditions et la Précision du raisonnement. Notre analyse des modèles grand public sur UnicBench révèle leurs limites et offre des orientations claires pour les recherches futures.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.