Pico-Banana-400K: Um Conjunto de Dados em Grande Escala para Edição de Imagens Orientada por Texto
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
October 22, 2025
Autores: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI
Resumo
Avanços recentes em modelos multimodais demonstraram capacidades notáveis de edição de imagens guiadas por texto, com sistemas como GPT-4o e Nano-Banana estabelecendo novos padrões de referência. No entanto, o progresso da comunidade de pesquisa continua limitado pela ausência de conjuntos de dados em larga escala, de alta qualidade e abertamente acessíveis, construídos a partir de imagens reais. Apresentamos o Pico-Banana-400K, um conjunto abrangente de 400 mil imagens para edição de imagens baseada em instruções. Nosso conjunto de dados é construído aproveitando o Nano-Banana para gerar pares de edições diversas a partir de fotografias reais da coleção OpenImages. O que distingue o Pico-Banana-400K de conjuntos de dados sintéticos anteriores é nossa abordagem sistemática à qualidade e diversidade. Empregamos uma taxonomia detalhada de edição de imagens para garantir cobertura abrangente dos tipos de edição, mantendo a preservação precisa do conteúdo e a fidelidade às instruções por meio de pontuação de qualidade baseada em MLLM e curadoria cuidadosa. Além da edição em uma única etapa, o Pico-Banana-400K possibilita pesquisas em cenários complexos de edição. O conjunto de dados inclui três subconjuntos especializados: (1) uma coleção de 72 mil exemplos de múltiplas etapas para estudar edição sequencial, raciocínio e planejamento em modificações consecutivas; (2) um subconjunto de preferência com 56 mil exemplos para pesquisa de alinhamento e treinamento de modelos de recompensa; e (3) pares de instruções de edição longas e curtas para desenvolver capacidades de reescrita e resumo de instruções. Ao fornecer esse recurso em larga escala, de alta qualidade e rico em tarefas, o Pico-Banana-400K estabelece uma base robusta para treinar e avaliar a próxima geração de modelos de edição de imagens guiadas por texto.
English
Recent advances in multimodal models have demonstrated remarkable text-guided
image editing capabilities, with systems like GPT-4o and Nano-Banana setting
new benchmarks. However, the research community's progress remains constrained
by the absence of large-scale, high-quality, and openly accessible datasets
built from real images. We introduce Pico-Banana-400K, a comprehensive
400K-image dataset for instruction-based image editing. Our dataset is
constructed by leveraging Nano-Banana to generate diverse edit pairs from real
photographs in the OpenImages collection. What distinguishes Pico-Banana-400K
from previous synthetic datasets is our systematic approach to quality and
diversity. We employ a fine-grained image editing taxonomy to ensure
comprehensive coverage of edit types while maintaining precise content
preservation and instruction faithfulness through MLLM-based quality scoring
and careful curation. Beyond single turn editing, Pico-Banana-400K enables
research into complex editing scenarios. The dataset includes three specialized
subsets: (1) a 72K-example multi-turn collection for studying sequential
editing, reasoning, and planning across consecutive modifications; (2) a
56K-example preference subset for alignment research and reward model training;
and (3) paired long-short editing instructions for developing instruction
rewriting and summarization capabilities. By providing this large-scale,
high-quality, and task-rich resource, Pico-Banana-400K establishes a robust
foundation for training and benchmarking the next generation of text-guided
image editing models.