ChatPaper.aiChatPaper

UnicEdit-10M: Un Conjunto de Datos y Punto de Referencia que Rompe la Barrera Escala-Calidad mediante la Verificación Unificada de Ediciones Enriquecidas con Razonamiento

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

December 1, 2025
Autores: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI

Resumen

Con los rápidos avances de modelos multimodales potentes como GPT-4o, Nano Banana y Seedream 4.0 en Edición de Imágenes, la brecha de rendimiento entre los modelos de código cerrado y los de código abierto se está ampliando, principalmente debido a la escasez de datos de entrenamiento a gran escala y de alta calidad, y a la falta de benchmarks integrales capaces de diagnosticar las debilidades de los modelos en diversos comportamientos de edición. Los métodos existentes de construcción de datos enfrentan una disyuntiva entre escala y calidad: las anotaciones humanas son de alta calidad pero no escalables, mientras que los flujos automatizados sufren de propagación de errores y ruido. Para abordar esto, presentamos un pipeline de datos ligero que reemplaza las cadenas de múltiples herramientas con un modelo de extremo a extremo y una etapa unificada de verificación posterior. Para un control de calidad escalable, entrenamos un modelo experto de doble tarea de 7B, Qwen-Verify, para la detección eficiente de fallos y el recaptioning de instrucciones. Este pipeline produce UnicEdit-10M, un conjunto de datos de escala 10M que abarca diversas tareas de edición básicas y complejas. También proponemos UnicBench, un benchmark general que se extiende más allá de las ediciones básicas para evaluar explícitamente el razonamiento espacial y basado en conocimiento. Para permitir un diagnóstico granular, introducimos nuevas métricas, incluyendo la Consistencia de No-edición y la Precisión de Razonamiento. Nuestro análisis de modelos principales en UnicBench revela sus limitaciones y proporciona direcciones claras para la investigación futura.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.
PDF11December 4, 2025