Pico-Banana-400K: Ein umfangreicher Datensatz für textgesteuerte Bildbearbeitung
Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
October 22, 2025
papers.authors: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI
papers.abstract
Jüngste Fortschritte in multimodalen Modellen haben bemerkenswerte Fähigkeiten zur textgesteuerten Bildbearbeitung demonstriert, wobei Systeme wie GPT-4o und Nano-Banana neue Maßstäbe setzen. Der Fortschritt der Forschungsgemeinschaft bleibt jedoch durch das Fehlen groß angelegter, hochwertiger und frei zugänglicher Datensätze, die aus realen Bildern erstellt wurden, eingeschränkt. Wir stellen Pico-Banana-400K vor, einen umfassenden 400.000-Bilder-Datensatz für anweisungsbasierte Bildbearbeitung. Unser Datensatz wurde erstellt, indem Nano-Banana genutzt wurde, um vielfältige Bearbeitungspaare aus realen Fotografien der OpenImages-Sammlung zu generieren. Was Pico-Banana-400K von früheren synthetischen Datensätzen unterscheidet, ist unser systematischer Ansatz in Bezug auf Qualität und Vielfalt. Wir verwenden eine fein abgestufte Taxonomie der Bildbearbeitung, um eine umfassende Abdeckung der Bearbeitungstypen zu gewährleisten, während gleichzeitig eine präzise Inhaltserhaltung und Anweisungstreue durch MLLM-basierte Qualitätsbewertung und sorgfältige Kuratierung sichergestellt wird. Über die Einzelbearbeitung hinaus ermöglicht Pico-Banana-400K die Erforschung komplexer Bearbeitungsszenarien. Der Datensatz umfasst drei spezialisierte Teilmengen: (1) eine 72.000-Beispiel-Sammlung für Mehrfachbearbeitungen zur Untersuchung sequenzieller Bearbeitungen, Schlussfolgerungen und Planungen über aufeinanderfolgende Modifikationen hinweg; (2) eine 56.000-Beispiel-Präferenzteilmenge für die Ausrichtungsforschung und das Training von Belohnungsmodellen; und (3) gepaarte lange-kurze Bearbeitungsanweisungen zur Entwicklung von Fähigkeiten zur Anweisungsumformulierung und Zusammenfassung. Durch die Bereitstellung dieser groß angelegten, hochwertigen und aufgabenreichen Ressource schafft Pico-Banana-400K eine robuste Grundlage für das Training und die Bewertung der nächsten Generation textgesteuerter Bildbearbeitungsmodelle.
English
Recent advances in multimodal models have demonstrated remarkable text-guided
image editing capabilities, with systems like GPT-4o and Nano-Banana setting
new benchmarks. However, the research community's progress remains constrained
by the absence of large-scale, high-quality, and openly accessible datasets
built from real images. We introduce Pico-Banana-400K, a comprehensive
400K-image dataset for instruction-based image editing. Our dataset is
constructed by leveraging Nano-Banana to generate diverse edit pairs from real
photographs in the OpenImages collection. What distinguishes Pico-Banana-400K
from previous synthetic datasets is our systematic approach to quality and
diversity. We employ a fine-grained image editing taxonomy to ensure
comprehensive coverage of edit types while maintaining precise content
preservation and instruction faithfulness through MLLM-based quality scoring
and careful curation. Beyond single turn editing, Pico-Banana-400K enables
research into complex editing scenarios. The dataset includes three specialized
subsets: (1) a 72K-example multi-turn collection for studying sequential
editing, reasoning, and planning across consecutive modifications; (2) a
56K-example preference subset for alignment research and reward model training;
and (3) paired long-short editing instructions for developing instruction
rewriting and summarization capabilities. By providing this large-scale,
high-quality, and task-rich resource, Pico-Banana-400K establishes a robust
foundation for training and benchmarking the next generation of text-guided
image editing models.