NoHumansRequired:自律的な高品質画像編集のためのトリプレットマイニング
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
July 18, 2025
著者: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI
要旨
近年の生成モデルの進歩により、自然言語の指示に従って画像編集を行うアシスタントが、追加のユーザー入力なしで実現可能となった。その教師あり学習には、数百万のトリプレット(元画像、指示、編集後の画像)が必要である。しかし、ピクセル単位で正確な例を収集することは困難である。各編集は、指示された領域のみに影響を与え、スタイルの一貫性を保ち、物理的な妥当性を尊重し、視覚的な魅力を維持しなければならない。編集品質を評価する堅牢な自動化指標の欠如が、大規模な信頼性のある自動化を妨げている。本研究では、ドメイン、解像度、指示の複雑さ、スタイルを跨いで高忠実度のトリプレットを収集する自動化されたモジュール型パイプラインを提案する。公開されている生成モデルを基盤とし、人間の介入なしで動作する本システムは、タスクに特化したGeminiバリデーターを使用して、指示の遵守度と美的品質を直接スコア化し、セグメンテーションやグラウンディングモデルを不要とする。反転と合成的ブートストラップにより、収集されたデータセットを約2.2倍に拡大し、大規模な高忠実度の学習データを実現する。最も反復的なアノテーションステップを自動化することで、人間のラベリング作業なしで新たな規模の学習が可能となる。このリソース集約的な分野の研究を民主化するため、NHR-Editという358kの高品質トリプレットからなるオープンデータセットを公開する。最大規模のクロスデータセット評価において、すべての公開されている代替データセットを凌駕する。また、Bagel-NHR-EditというオープンソースのファインチューニングされたBagelモデルも公開し、実験において最先端のメトリクスを達成した。
English
Recent advances in generative modeling enable image editing assistants that
follow natural language instructions without additional user input. Their
supervised training requires millions of triplets: original image, instruction,
edited image. Yet mining pixel-accurate examples is hard. Each edit must affect
only prompt-specified regions, preserve stylistic coherence, respect physical
plausibility, and retain visual appeal. The lack of robust automated
edit-quality metrics hinders reliable automation at scale. We present an
automated, modular pipeline that mines high-fidelity triplets across domains,
resolutions, instruction complexities, and styles. Built on public generative
models and running without human intervention, our system uses a task-tuned
Gemini validator to score instruction adherence and aesthetics directly,
removing any need for segmentation or grounding models. Inversion and
compositional bootstrapping enlarge the mined set by approximately 2.2x,
enabling large-scale high-fidelity training data. By automating the most
repetitive annotation steps, the approach allows a new scale of training
without human labeling effort. To democratize research in this
resource-intensive area, we release NHR-Edit: an open dataset of 358k
high-quality triplets. In the largest cross-dataset evaluation, it surpasses
all public alternatives. We also release Bagel-NHR-Edit, an open-source
fine-tuned Bagel model, which achieves state-of-the-art metrics in our
experiments.