Pico-Banana-400K: Um Conjunto de Dados em Grande Escala para Edição de Imagens Orientada por Texto

Resumo

Avanços recentes em modelos multimodais demonstraram capacidades notáveis de edição de imagens guiadas por texto, com sistemas como GPT-4o e Nano-Banana estabelecendo novos padrões de referência. No entanto, o progresso da comunidade de pesquisa continua limitado pela ausência de conjuntos de dados em larga escala, de alta qualidade e abertamente acessíveis, construídos a partir de imagens reais. Apresentamos o Pico-Banana-400K, um conjunto abrangente de 400 mil imagens para edição de imagens baseada em instruções. Nosso conjunto de dados é construído aproveitando o Nano-Banana para gerar pares de edições diversas a partir de fotografias reais da coleção OpenImages. O que distingue o Pico-Banana-400K de conjuntos de dados sintéticos anteriores é nossa abordagem sistemática à qualidade e diversidade. Empregamos uma taxonomia detalhada de edição de imagens para garantir cobertura abrangente dos tipos de edição, mantendo a preservação precisa do conteúdo e a fidelidade às instruções por meio de pontuação de qualidade baseada em MLLM e curadoria cuidadosa. Além da edição em uma única etapa, o Pico-Banana-400K possibilita pesquisas em cenários complexos de edição. O conjunto de dados inclui três subconjuntos especializados: (1) uma coleção de 72 mil exemplos de múltiplas etapas para estudar edição sequencial, raciocínio e planejamento em modificações consecutivas; (2) um subconjunto de preferência com 56 mil exemplos para pesquisa de alinhamento e treinamento de modelos de recompensa; e (3) pares de instruções de edição longas e curtas para desenvolver capacidades de reescrita e resumo de instruções. Ao fornecer esse recurso em larga escala, de alta qualidade e rico em tarefas, o Pico-Banana-400K estabelece uma base robusta para treinar e avaliar a próxima geração de modelos de edição de imagens guiadas por texto.

English

Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.