UnicEdit-10M: 검증 통합을 통해 추론 강화 편집의 규모-품질 장벽을 허무는 데이터셋 및 벤치마크
UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
December 1, 2025
저자: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI
초록
강력한 멀티모달 모델(GPT-4o, Nano Banana, Seedream 4.0 등)의 이미지 편집 기술이 빠르게 발전함에 따라, 대규모 고품질 학습 데이터의 부족과 다양한 편집 동작에서 모델 약점을 진단할 수 있는 포괄적 벤치마크의 미비로 인해 오픈소스 모델과 클로즈드소스 모델 간의 성능 격차가 확대되고 있습니다. 기존 데이터 구축 방법은 규모와 품질 간의 트레이드오프에 직면해 있습니다. 인간에 의한 주석 처리(Annotation)는 고품질이지만 확장성이 부족한 반면, 자동화 파이프라인은 오류 전파와 노이즈 문제를 겪습니다. 이를 해결하기 위해 우리는 다중 도구 체인을 종단간(End-to-End) 모델과 통합 사후 검증 단계로 대체하는 경량 데이터 파이프라인을 제안합니다. 확장 가능한 품질 관리를 위해, 효율적인 실패 감지(Failure Detection)와 지령문 재설명(Instruction Recaptioning)을 수행하는 7B 규모의 이중 작업 전문 모델인 Qwen-Verify를 학습했습니다. 이 파이프라인을 통해 다양한 기본 및 복잡한 편집 작업을 아우르는 1,000만 규모의 데이터셋인 UnicEdit-10M을 구축했습니다. 또한 기본 편집을 넘어 공간 및 지식 기반 추론 능력을 명시적으로 평가하는 일반 벤치마크인 UnicBench를 제안합니다. 세분화된 진단을 가능하게 하기 위해 비편집 영역 일관성(Non-edit Consistency)과 추론 정확도(Reasoning Accuracy) 같은 새로운 평가 지표를 도입했습니다. UnicBench를 통한 주류 모델들의 분석 결과, 이들의 한계를 밝혀내고 향후 연구를 위한 명확한 방향을 제시합니다.
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.