Pico-Banana-400K: Een grootschalige dataset voor tekstgestuurd beeldbewerken
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
October 22, 2025
Auteurs: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale modellen hebben opmerkelijke tekstgestuurde beeldbewerkingsmogelijkheden aangetoond, waarbij systemen zoals GPT-4o en Nano-Banana nieuwe standaarden hebben gezet. De vooruitgang van de onderzoeksgemeenschap blijft echter beperkt door het ontbreken van grootschalige, hoogwaardige en openbaar toegankelijke datasets die zijn opgebouwd uit echte afbeeldingen. Wij introduceren Pico-Banana-400K, een uitgebreide dataset van 400K afbeeldingen voor instructiegestuurde beeldbewerking. Onze dataset is geconstrueerd door Nano-Banana te gebruiken om diverse bewerkingsparen te genereren uit echte foto's in de OpenImages-collectie. Wat Pico-Banana-400K onderscheidt van eerdere synthetische datasets is onze systematische aanpak voor kwaliteit en diversiteit. We gebruiken een fijnmazige taxonomie voor beeldbewerking om een uitgebreide dekking van bewerkingstypes te garanderen, terwijl we nauwkeurige inhoudsbehoud en instructietrouw waarborgen via MLLM-gebaseerde kwaliteitsscores en zorgvuldige curatie. Naast enkelvoudige bewerkingen maakt Pico-Banana-400K onderzoek naar complexe bewerkingsscenario's mogelijk. De dataset omvat drie gespecialiseerde subsets: (1) een collectie van 72K voorbeelden voor meervoudige bewerkingen, om sequentiële bewerkingen, redenering en planning over opeenvolgende aanpassingen te bestuderen; (2) een voorkeursubset van 56K voorbeelden voor aligneringsonderzoek en training van beloningsmodellen; en (3) gepaarde lange-korte bewerkingsinstructies voor het ontwikkelen van instructieherformulering en samenvattingsmogelijkheden. Door deze grootschalige, hoogwaardige en taakrijke bron te bieden, legt Pico-Banana-400K een robuuste basis voor het trainen en benchmarken van de volgende generatie tekstgestuurde beeldbewerkingsmodellen.
English
Recent advances in multimodal models have demonstrated remarkable text-guided
image editing capabilities, with systems like GPT-4o and Nano-Banana setting
new benchmarks. However, the research community's progress remains constrained
by the absence of large-scale, high-quality, and openly accessible datasets
built from real images. We introduce Pico-Banana-400K, a comprehensive
400K-image dataset for instruction-based image editing. Our dataset is
constructed by leveraging Nano-Banana to generate diverse edit pairs from real
photographs in the OpenImages collection. What distinguishes Pico-Banana-400K
from previous synthetic datasets is our systematic approach to quality and
diversity. We employ a fine-grained image editing taxonomy to ensure
comprehensive coverage of edit types while maintaining precise content
preservation and instruction faithfulness through MLLM-based quality scoring
and careful curation. Beyond single turn editing, Pico-Banana-400K enables
research into complex editing scenarios. The dataset includes three specialized
subsets: (1) a 72K-example multi-turn collection for studying sequential
editing, reasoning, and planning across consecutive modifications; (2) a
56K-example preference subset for alignment research and reward model training;
and (3) paired long-short editing instructions for developing instruction
rewriting and summarization capabilities. By providing this large-scale,
high-quality, and task-rich resource, Pico-Banana-400K establishes a robust
foundation for training and benchmarking the next generation of text-guided
image editing models.