ChatPaper.aiChatPaper

Pico-Banana-400K: 텍스트 기반 이미지 편향을 위한 대규모 데이터셋

Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

October 22, 2025
저자: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan
cs.AI

초록

최근 멀티모달 모델의 발전은 GPT-4o와 Nano-Banana와 같은 시스템들이 새로운 벤치마크를 설정하며 텍스트 기반 이미지 편집 능력에서 놀라운 성과를 보여주고 있습니다. 그러나 연구 커뮤니티의 진전은 실제 이미지로부터 구축된 대규모, 고품질, 공개적으로 접근 가능한 데이터셋의 부재로 인해 제약을 받고 있습니다. 우리는 Pico-Banana-400K를 소개합니다. 이는 명령 기반 이미지 편집을 위한 400K 이미지로 구성된 포괄적인 데이터셋입니다. 우리의 데이터셋은 OpenImages 컬렉션의 실제 사진들로부터 다양한 편집 쌍을 생성하기 위해 Nano-Banana를 활용하여 구축되었습니다. Pico-Banana-400K가 이전의 합성 데이터셋과 구별되는 점은 품질과 다양성을 위한 체계적인 접근 방식입니다. 우리는 세분화된 이미지 편집 분류 체계를 사용하여 편집 유형의 포괄적인 커버리지를 보장하면서도 MLLM 기반 품질 점수화와 신중한 큐레이션을 통해 정확한 콘텐츠 보존과 명령 충실도를 유지합니다. 단일 단계 편집을 넘어, Pico-Banana-400K는 복잡한 편집 시나리오 연구를 가능하게 합니다. 이 데이터셋은 세 가지 특화된 하위 집합을 포함합니다: (1) 순차적 편집, 추론, 그리고 연속적인 수정에 걸친 계획 연구를 위한 72K 예제의 다중 단계 컬렉션; (2) 정렬 연구와 보상 모델 훈련을 위한 56K 예제의 선호도 하위 집합; (3) 명령 재작성 및 요약 능력 개발을 위한 짧고 긴 편집 명령 쌍. 이 대규모, 고품질, 그리고 다양한 작업을 제공함으로써, Pico-Banana-400K는 차세대 텍스트 기반 이미지 편집 모델의 훈련과 벤치마킹을 위한 견고한 기반을 마련합니다.
English
Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.
PDF111October 23, 2025