Pico-Banana-400K: Un Conjunto de Datos a Gran Escala para la Edición de Imágenes Guiada por Texto
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
October 22, 2025
Autores: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI
Resumen
Los recientes avances en modelos multimodales han demostrado capacidades notables de edición de imágenes guiada por texto, con sistemas como GPT-4o y Nano-Banana estableciendo nuevos referentes. Sin embargo, el progreso de la comunidad investigadora sigue limitado por la ausencia de conjuntos de datos a gran escala, de alta calidad y de acceso abierto, construidos a partir de imágenes reales. Presentamos Pico-Banana-400K, un conjunto de datos integral de 400K imágenes para la edición de imágenes basada en instrucciones. Nuestro conjunto de datos se construye aprovechando Nano-Banana para generar pares de ediciones diversas a partir de fotografías reales de la colección OpenImages. Lo que distingue a Pico-Banana-400K de los conjuntos de datos sintéticos anteriores es nuestro enfoque sistemático hacia la calidad y la diversidad. Empleamos una taxonomía de edición de imágenes de grano fino para garantizar una cobertura exhaustiva de los tipos de edición, manteniendo al mismo tiempo una preservación precisa del contenido y una fidelidad a las instrucciones mediante puntuaciones de calidad basadas en MLLM y una cuidadosa curación. Más allá de la edición de un solo paso, Pico-Banana-400K permite investigar escenarios de edición complejos. El conjunto de datos incluye tres subconjuntos especializados: (1) una colección de 72K ejemplos de múltiples pasos para estudiar la edición secuencial, el razonamiento y la planificación a través de modificaciones consecutivas; (2) un subconjunto de preferencias de 56K ejemplos para la investigación de alineación y el entrenamiento de modelos de recompensa; y (3) instrucciones de edición largas-cortas emparejadas para desarrollar capacidades de reescritura y resumen de instrucciones. Al proporcionar este recurso a gran escala, de alta calidad y rico en tareas, Pico-Banana-400K establece una base sólida para entrenar y evaluar la próxima generación de modelos de edición de imágenes guiada por texto.
English
Recent advances in multimodal models have demonstrated remarkable text-guided
image editing capabilities, with systems like GPT-4o and Nano-Banana setting
new benchmarks. However, the research community's progress remains constrained
by the absence of large-scale, high-quality, and openly accessible datasets
built from real images. We introduce Pico-Banana-400K, a comprehensive
400K-image dataset for instruction-based image editing. Our dataset is
constructed by leveraging Nano-Banana to generate diverse edit pairs from real
photographs in the OpenImages collection. What distinguishes Pico-Banana-400K
from previous synthetic datasets is our systematic approach to quality and
diversity. We employ a fine-grained image editing taxonomy to ensure
comprehensive coverage of edit types while maintaining precise content
preservation and instruction faithfulness through MLLM-based quality scoring
and careful curation. Beyond single turn editing, Pico-Banana-400K enables
research into complex editing scenarios. The dataset includes three specialized
subsets: (1) a 72K-example multi-turn collection for studying sequential
editing, reasoning, and planning across consecutive modifications; (2) a
56K-example preference subset for alignment research and reward model training;
and (3) paired long-short editing instructions for developing instruction
rewriting and summarization capabilities. By providing this large-scale,
high-quality, and task-rich resource, Pico-Banana-400K establishes a robust
foundation for training and benchmarking the next generation of text-guided
image editing models.