Pico-Banana-400K: Крупномасштабный набор данных для текстового управления редактированием изображений
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
October 22, 2025
Авторы: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI
Аннотация
Последние достижения в области мультимодальных моделей продемонстрировали впечатляющие возможности редактирования изображений на основе текстовых инструкций, при этом системы, такие как GPT-4o и Nano-Banana, установили новые стандарты. Однако прогресс научного сообщества остается ограниченным из-за отсутствия крупномасштабных, высококачественных и открыто доступных наборов данных, созданных на основе реальных изображений. Мы представляем Pico-Banana-400K — обширный набор данных, содержащий 400 тысяч изображений для редактирования на основе инструкций. Наш набор данных создан с использованием Nano-Banana для генерации разнообразных пар редактирования из реальных фотографий коллекции OpenImages. Отличительной особенностью Pico-Banana-400K по сравнению с предыдущими синтетическими наборами данных является наш систематический подход к обеспечению качества и разнообразия. Мы применяем детализированную таксономию редактирования изображений, чтобы обеспечить полное покрытие типов редактирования, сохраняя при этом точность содержания и соответствие инструкциям с помощью оценки качества на основе MLLM и тщательной курации. Помимо одношагового редактирования, Pico-Banana-400K позволяет исследовать сложные сценарии редактирования. Набор данных включает три специализированных подмножества: (1) коллекцию из 72 тысяч примеров для изучения последовательного редактирования, рассуждений и планирования в ходе последовательных модификаций; (2) подмножество из 56 тысяч примеров для исследований в области согласования и обучения моделей вознаграждения; (3) парные инструкции для редактирования с длинными и короткими формулировками, предназначенные для развития способностей переписывания и суммирования инструкций. Предоставляя этот крупномасштабный, высококачественный и многофункциональный ресурс, Pico-Banana-400K создает прочную основу для обучения и тестирования следующего поколения моделей редактирования изображений на основе текстовых инструкций.
English
Recent advances in multimodal models have demonstrated remarkable text-guided
image editing capabilities, with systems like GPT-4o and Nano-Banana setting
new benchmarks. However, the research community's progress remains constrained
by the absence of large-scale, high-quality, and openly accessible datasets
built from real images. We introduce Pico-Banana-400K, a comprehensive
400K-image dataset for instruction-based image editing. Our dataset is
constructed by leveraging Nano-Banana to generate diverse edit pairs from real
photographs in the OpenImages collection. What distinguishes Pico-Banana-400K
from previous synthetic datasets is our systematic approach to quality and
diversity. We employ a fine-grained image editing taxonomy to ensure
comprehensive coverage of edit types while maintaining precise content
preservation and instruction faithfulness through MLLM-based quality scoring
and careful curation. Beyond single turn editing, Pico-Banana-400K enables
research into complex editing scenarios. The dataset includes three specialized
subsets: (1) a 72K-example multi-turn collection for studying sequential
editing, reasoning, and planning across consecutive modifications; (2) a
56K-example preference subset for alignment research and reward model training;
and (3) paired long-short editing instructions for developing instruction
rewriting and summarization capabilities. By providing this large-scale,
high-quality, and task-rich resource, Pico-Banana-400K establishes a robust
foundation for training and benchmarking the next generation of text-guided
image editing models.