ChatPaper.aiChatPaper

Pico-Banana-400K : Un jeu de données à grande échelle pour l'édition d'images guidée par texte

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

October 22, 2025
papers.authors: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI

papers.abstract

Les récentes avancées dans les modèles multimodaux ont démontré des capacités remarquables d'édition d'images guidées par texte, avec des systèmes comme GPT-4o et Nano-Banana établissant de nouveaux référentiels. Cependant, les progrès de la communauté de recherche restent limités par l'absence de jeux de données à grande échelle, de haute qualité et librement accessibles, construits à partir d'images réelles. Nous présentons Pico-Banana-400K, un jeu de données complet de 400 000 images pour l'édition d'images basée sur des instructions. Notre jeu de données est construit en exploitant Nano-Banana pour générer des paires d'édition variées à partir de photographies réelles de la collection OpenImages. Ce qui distingue Pico-Banana-400K des jeux de données synthétiques précédents est notre approche systématique en matière de qualité et de diversité. Nous utilisons une taxonomie fine de l'édition d'images pour assurer une couverture exhaustive des types d'édition tout en maintenant une préservation précise du contenu et une fidélité aux instructions grâce à un système de notation de qualité basé sur MLLM et une curation minutieuse. Au-delà de l'édition en une seule étape, Pico-Banana-400K permet la recherche dans des scénarios d'édition complexes. Le jeu de données comprend trois sous-ensembles spécialisés : (1) une collection de 72 000 exemples multi-étapes pour étudier l'édition séquentielle, le raisonnement et la planification à travers des modifications consécutives ; (2) un sous-ensemble de préférences de 56 000 exemples pour la recherche sur l'alignement et l'entraînement de modèles de récompense ; et (3) des paires d'instructions d'édition longues-courtes pour développer des capacités de réécriture et de synthèse d'instructions. En fournissant cette ressource à grande échelle, de haute qualité et riche en tâches, Pico-Banana-400K établit une base solide pour l'entraînement et l'évaluation de la prochaine génération de modèles d'édition d'images guidés par texte.
English
Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.
PDF111October 23, 2025