Pico-Banana-400K: Un Conjunto de Datos a Gran Escala para la Edición de Imágenes Guiada por Texto

Resumen

Los recientes avances en modelos multimodales han demostrado capacidades notables de edición de imágenes guiada por texto, con sistemas como GPT-4o y Nano-Banana estableciendo nuevos referentes. Sin embargo, el progreso de la comunidad investigadora sigue limitado por la ausencia de conjuntos de datos a gran escala, de alta calidad y de acceso abierto, construidos a partir de imágenes reales. Presentamos Pico-Banana-400K, un conjunto de datos integral de 400K imágenes para la edición de imágenes basada en instrucciones. Nuestro conjunto de datos se construye aprovechando Nano-Banana para generar pares de ediciones diversas a partir de fotografías reales de la colección OpenImages. Lo que distingue a Pico-Banana-400K de los conjuntos de datos sintéticos anteriores es nuestro enfoque sistemático hacia la calidad y la diversidad. Empleamos una taxonomía de edición de imágenes de grano fino para garantizar una cobertura exhaustiva de los tipos de edición, manteniendo al mismo tiempo una preservación precisa del contenido y una fidelidad a las instrucciones mediante puntuaciones de calidad basadas en MLLM y una cuidadosa curación. Más allá de la edición de un solo paso, Pico-Banana-400K permite investigar escenarios de edición complejos. El conjunto de datos incluye tres subconjuntos especializados: (1) una colección de 72K ejemplos de múltiples pasos para estudiar la edición secuencial, el razonamiento y la planificación a través de modificaciones consecutivas; (2) un subconjunto de preferencias de 56K ejemplos para la investigación de alineación y el entrenamiento de modelos de recompensa; y (3) instrucciones de edición largas-cortas emparejadas para desarrollar capacidades de reescritura y resumen de instrucciones. Al proporcionar este recurso a gran escala, de alta calidad y rico en tareas, Pico-Banana-400K establece una base sólida para entrenar y evaluar la próxima generación de modelos de edición de imágenes guiada por texto.

English

Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.