ChatPaper.aiChatPaper

BLIP3-o: 완전히 개방된 통합 멀티모달 모델 패밀리 - 아키텍처, 학습 및 데이터셋

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14, 2025
저자: Jiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu
cs.AI

초록

이미지 이해와 생성의 통합은 최근 멀티모달 모델 연구에서 점점 더 많은 관심을 받고 있다. 이미지 이해를 위한 설계 선택은 광범위하게 연구되었지만, 이미지 생성을 포함한 통합 프레임워크를 위한 최적의 모델 아키텍처와 훈련 방법은 아직 충분히 탐구되지 않았다. 고품질 생성과 확장성 측면에서 자기회귀 모델과 확산 모델의 강력한 잠재력에 주목하여, 우리는 이들의 통합 멀티모달 설정에서의 활용을 이미지 표현, 모델링 목표, 훈련 전략을 중심으로 포괄적으로 연구한다. 이러한 연구를 바탕으로, 우리는 기존의 VAE 기반 표현과 대조적으로 확산 트랜스포머를 사용하여 의미적으로 풍부한 CLIP 이미지 특징을 생성하는 새로운 접근 방식을 제안한다. 이 설계는 더 높은 훈련 효율성과 향상된 생성 품질을 동시에 제공한다. 또한, 통합 모델을 위한 순차적 사전 훈련 전략—먼저 이미지 이해를 훈련하고 이후에 이미지 생성을 훈련하는 방식—이 이미지 이해 능력을 유지하면서 강력한 이미지 생성 능력을 개발하는 데 실용적인 이점을 제공함을 입증한다. 마지막으로, 우리는 다양한 장면, 객체, 인간의 제스처 등을 포함한 다양한 캡션을 사용하여 GPT-4o를 프롬프팅하여 이미지 생성을 위한 고품질의 지시 튜닝 데이터셋인 BLIP3o-60k를 신중하게 구성한다. 우리의 혁신적인 모델 설계, 훈련 방법, 데이터셋을 기반으로, 우리는 최첨단 통합 멀티모달 모델군인 BLIP3-o를 개발한다. BLIP3-o는 이미지 이해와 생성 작업을 아우르는 대부분의 인기 벤치마크에서 우수한 성능을 달성한다. 향후 연구를 촉진하기 위해, 우리는 코드, 모델 가중치, 훈련 스크립트, 사전 훈련 및 지시 튜닝 데이터셋을 포함한 모델을 완전히 오픈소스로 공개한다.
English
Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.

Summary

AI-Generated Summary

PDF462May 15, 2025