UnicEdit-10M: Набор данных и эталонный тест, преодолевающий барьер масштаба и качества с помощью унифицированной верификации для обогащенных логикой правок
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
December 1, 2025
Авторы: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI
Аннотация
Стремительное развитие мощных мультимодальных моделей, таких как GPT-4o, Nano Banana и Seedream 4.0, в области редактирования изображений ведет к увеличению разрыва в производительности между проприетарными и открытыми моделями. Это связано в первую очередь с нехваткой крупномасштабных высококачественных данных для обучения, а также всесторонних бенчмарков, способных диагностировать слабые места моделей при выполнении разнообразных задач редактирования. Существующие методы создания данных сталкиваются с компромиссом между масштабом и качеством: человеческие аннотации обладают высоким качеством, но плохо масштабируются, тогда как автоматизированные пайплайны страдают от распространения ошибок и зашумленности. Для решения этой проблемы мы представляем легковесный пайплайн, который заменяет многокомпонентные инструментальные цепочки на сквозную модель и унифицированный этап пост-проверки. Для масштабируемого контроля качества мы обучаем 7-миллиардную экспертную модель с двумя задачами, Qwen-Verify, для эффективного обнаружения ошибок и переописания инструкций. Данный пайплайн позволяет создать UnicEdit-10M — набор данных масштабом 10 миллионов примеров, охватывающий разнообразные базовые и сложные задачи редактирования. Мы также предлагаем UnicBench, универсальный бенчмарк, который выходит за рамки базового редактирования и явно оценивает пространственные и основанные на знаниях рассуждения. Для обеспечения детальной диагностики мы вводим новые метрики, включая **Нередактируемую Согласованность** и **Точность Рассуждений**. Наш анализ основных моделей на UnicBench выявляет их ограничения и определяет четкие направления для будущих исследований.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.