ChatPaper.aiChatPaper

Pico-Banana-400K: Un Dataset su Larga Scala per la Modifica di Immagini Guidata da Testo

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

October 22, 2025
Autori: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI

Abstract

I recenti progressi nei modelli multimodali hanno dimostrato capacità straordinarie di modifica delle immagini guidata da testo, con sistemi come GPT-4o e Nano-Banana che stabiliscono nuovi benchmark. Tuttavia, i progressi della comunità di ricerca rimangono limitati dall'assenza di dataset su larga scala, di alta qualità e accessibili pubblicamente, costruiti a partire da immagini reali. Presentiamo Pico-Banana-400K, un dataset completo di 400.000 immagini per la modifica delle immagini basata su istruzioni. Il nostro dataset è stato costruito sfruttando Nano-Banana per generare coppie di modifiche diverse da fotografie reali della collezione OpenImages. Ciò che distingue Pico-Banana-400K dai precedenti dataset sintetici è il nostro approccio sistematico alla qualità e alla diversità. Utilizziamo una tassonomia dettagliata della modifica delle immagini per garantire una copertura completa dei tipi di modifica, mantenendo al contempo una conservazione precisa del contenuto e una fedeltà alle istruzioni attraverso un punteggio di qualità basato su MLLM e un'attenta curatela. Oltre alla modifica a singolo passaggio, Pico-Banana-400K consente la ricerca in scenari di modifica complessi. Il dataset include tre sottoinsiemi specializzati: (1) una collezione di 72.000 esempi multi-passaggio per studiare la modifica sequenziale, il ragionamento e la pianificazione attraverso modifiche consecutive; (2) un sottoinsieme di preferenze di 56.000 esempi per la ricerca sull'allineamento e l'addestramento di modelli di ricompensa; e (3) coppie di istruzioni di modifica lunghe e brevi per sviluppare capacità di riscrittura e riassunto delle istruzioni. Fornendo questa risorsa su larga scala, di alta qualità e ricca di compiti, Pico-Banana-400K stabilisce una solida base per l'addestramento e il benchmarking della prossima generazione di modelli di modifica delle immagini guidata da testo.
English
Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.
PDF111October 23, 2025