UnicEdit-10M: Um Conjunto de Dados e Benchmark que Rompe a Barreira Escala-Qualidade via Verificação Unificada para Edições Enriquecidas com Raciocínio

Resumo

Com os rápidos avanços de modelos multimodais poderosos, como GPT-4o, Nano Banana e Seedream 4.0 em Edição de Imagens, a lacuna de desempenho entre modelos de código fechado e de código aberto está a aumentar, principalmente devido à escassez de dados de treino em larga escala e de alta qualidade, e à falta de benchmarks abrangentes capazes de diagnosticar fraquezas dos modelos em diversos comportamentos de edição. Os métodos existentes de construção de dados enfrentam um compromisso entre escala e qualidade: as anotações humanas são de alta qualidade, mas não são escaláveis, enquanto os pipelines automatizados sofrem com propagação de erros e ruído. Para resolver isto, introduzimos um pipeline de dados leve que substitui múltiplas cadeias de ferramentas por um modelo de fim-para-fim e uma fase unificada de pós-verificação. Para um controlo de qualidade escalável, treinamos um modelo especialista de dupla tarefa de 7B, o Qwen-Verify, para deteção eficiente de falhas e recaptioning de instruções. Este pipeline produz o UnicEdit-10M, um conjunto de dados à escala de 10 milhões de exemplos, abrangendo diversas tarefas de edição básicas e complexas. Também propomos o UnicBench, um benchmark geral que se estende para além das edições básicas para avaliar explicitamente o raciocínio espacial e orientado por conhecimento. Para permitir um diagnóstico granular, introduzimos novas métricas, incluindo Consistência de Não-edição e Precisão de Raciocínio. A nossa análise de modelos principais no UnicBench revela as suas limitações e fornece direções claras para investigação futura.

English

With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.

UnicEdit-10M: Um Conjunto de Dados e Benchmark que Rompe a Barreira Escala-Qualidade via Verificação Unificada para Edições Enriquecidas com Raciocínio

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

Resumo

Support