ChatPaper.aiChatPaper

UnicEdit-10M:推論を強化した編集のための統一検証による規模と品質の壁を打ち破るデータセットとベンチマーク

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

December 1, 2025
著者: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang
cs.AI

要旨

大規模マルチモーダルモデル(GPT-4o、Nano Banana、Seedream 4.0など)の急速な発展に伴い、画像編集分野においてクローズドソースモデルとオープンソースモデルの性能差が拡大している。この差は主に、大規模で高品質な訓練データの不足、および多様な編集行動にわたるモデルの弱点を診断できる包括的ベンチマークの欠如に起因する。既存のデータ構築手法は規模と品質のトレードオフに直面しており、人手による注釈は高品質だが拡張性に欠け、自動化パイプラインは誤差伝播やノイズの問題を抱えている。この課題に対処するため、我々はマルチツールチェーンをエンドツーエンドモデルと統一的な後検証段階で置き換える軽量データパイプラインを提案する。拡張可能な品質管理のために、効率的な失敗検出と指示文再キャプション化を目的とした7Bパラメータのデュアルタスク専門モデルQwen-Verifyを訓練した。このパイプラインにより、多様な基本編集タスクと複雑編集タスクを網羅する1,000万規模のデータセットUnicEdit-10Mを構築した。さらに、基本編集を超え、空間的・知識駆動型推論を明示的に評価する汎用ベンチマークUnicBenchを提案する。細粒度な診断を可能にするため、非編集領域一貫性や推論精度といった新規指標を導入した。UnicBenchにおける主流モデルの分析を通じて、それらの限界を明らかにし、将来の研究に向けた明確な方向性を示す。
English
With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, Qwen-Verify, for efficient failure detection and instruction recaptioning. This pipeline yields UnicEdit-10M, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose UnicBench, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including Non-edit Consistency and Reasoning Accuracy. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.
PDF11December 4, 2025