ChatPaper.aiChatPaper

Pico-Banana-400K: テキストガイド型画像編集のための大規模データセット

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

October 22, 2025
著者: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI

要旨

近年のマルチモーダルモデルの進展により、GPT-4oやNano-Bananaなどのシステムが新たなベンチマークを確立し、テキストガイドによる画像編集能力が顕著に向上しています。しかし、研究コミュニティの進歩は、実画像から構築された大規模で高品質かつ公開アクセス可能なデータセットの欠如によって制約を受けています。本論文では、指示ベースの画像編集のための包括的な40万枚の画像データセットであるPico-Banana-400Kを紹介します。このデータセットは、OpenImagesコレクションの実写真からNano-Bananaを活用して多様な編集ペアを生成することで構築されました。Pico-Banana-400Kが従来の合成データセットと異なる点は、品質と多様性に対する体系的なアプローチです。詳細な画像編集タクソノミーを採用し、編集タイプの包括的なカバレッジを確保するとともに、MLLMベースの品質スコアリングと慎重なキュレーションを通じて、正確なコンテンツの保存と指示の忠実性を維持しています。単一ターンの編集を超えて、Pico-Banana-400Kは複雑な編集シナリオの研究を可能にします。このデータセットには、3つの専門的なサブセットが含まれています:(1) 連続的な変更にわたる逐次編集、推論、計画を研究するための7万2千例のマルチターンコレクション、(2) アライメント研究と報酬モデルトレーニングのための5万6千例の選好サブセット、(3) 指示の書き換えと要約能力の開発のための長短編集指示のペアです。この大規模で高品質かつタスク豊富なリソースを提供することで、Pico-Banana-400Kは次世代のテキストガイド画像編集モデルのトレーニングとベンチマークのための堅固な基盤を確立します。
English
Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.
PDF111October 23, 2025