UnicEdit-10M: Um Conjunto de Dados e Benchmark que Rompe a Barreira Escala-Qualidade via Verificação Unificada para Edições Enriquecidas com Raciocínio
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
December 1, 2025
Autores: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI
Resumo
Com os rápidos avanços de modelos multimodais poderosos, como GPT-4o, Nano Banana e Seedream 4.0 em Edição de Imagens, a lacuna de desempenho entre modelos de código fechado e de código aberto está a aumentar, principalmente devido à escassez de dados de treino em larga escala e de alta qualidade, e à falta de benchmarks abrangentes capazes de diagnosticar fraquezas dos modelos em diversos comportamentos de edição. Os métodos existentes de construção de dados enfrentam um compromisso entre escala e qualidade: as anotações humanas são de alta qualidade, mas não são escaláveis, enquanto os pipelines automatizados sofrem com propagação de erros e ruído. Para resolver isto, introduzimos um pipeline de dados leve que substitui múltiplas cadeias de ferramentas por um modelo de fim-para-fim e uma fase unificada de pós-verificação. Para um controlo de qualidade escalável, treinamos um modelo especialista de dupla tarefa de 7B, o Qwen-Verify, para deteção eficiente de falhas e recaptioning de instruções. Este pipeline produz o UnicEdit-10M, um conjunto de dados à escala de 10 milhões de exemplos, abrangendo diversas tarefas de edição básicas e complexas. Também propomos o UnicBench, um benchmark geral que se estende para além das edições básicas para avaliar explicitamente o raciocínio espacial e orientado por conhecimento. Para permitir um diagnóstico granular, introduzimos novas métricas, incluindo Consistência de Não-edição e Precisão de Raciocínio. A nossa análise de modelos principais no UnicBench revela as suas limitações e fornece direções claras para investigação futura.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.