BLIP3-o: 완전히 개방된 통합 멀티모달 모델 패밀리 - 아키텍처, 학습 및 데이터셋BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture,
Training and Dataset
이미지 이해와 생성의 통합은 최근 멀티모달 모델 연구에서 점점 더 많은 관심을 받고 있다. 이미지 이해를 위한 설계 선택은 광범위하게 연구되었지만, 이미지 생성을 포함한 통합 프레임워크를 위한 최적의 모델 아키텍처와 훈련 방법은 아직 충분히 탐구되지 않았다. 고품질 생성과 확장성 측면에서 자기회귀 모델과 확산 모델의 강력한 잠재력에 주목하여, 우리는 이들의 통합 멀티모달 설정에서의 활용을 이미지 표현, 모델링 목표, 훈련 전략을 중심으로 포괄적으로 연구한다. 이러한 연구를 바탕으로, 우리는 기존의 VAE 기반 표현과 대조적으로 확산 트랜스포머를 사용하여 의미적으로 풍부한 CLIP 이미지 특징을 생성하는 새로운 접근 방식을 제안한다. 이 설계는 더 높은 훈련 효율성과 향상된 생성 품질을 동시에 제공한다. 또한, 통합 모델을 위한 순차적 사전 훈련 전략—먼저 이미지 이해를 훈련하고 이후에 이미지 생성을 훈련하는 방식—이 이미지 이해 능력을 유지하면서 강력한 이미지 생성 능력을 개발하는 데 실용적인 이점을 제공함을 입증한다. 마지막으로, 우리는 다양한 장면, 객체, 인간의 제스처 등을 포함한 다양한 캡션을 사용하여 GPT-4o를 프롬프팅하여 이미지 생성을 위한 고품질의 지시 튜닝 데이터셋인 BLIP3o-60k를 신중하게 구성한다. 우리의 혁신적인 모델 설계, 훈련 방법, 데이터셋을 기반으로, 우리는 최첨단 통합 멀티모달 모델군인 BLIP3-o를 개발한다. BLIP3-o는 이미지 이해와 생성 작업을 아우르는 대부분의 인기 벤치마크에서 우수한 성능을 달성한다. 향후 연구를 촉진하기 위해, 우리는 코드, 모델 가중치, 훈련 스크립트, 사전 훈련 및 지시 튜닝 데이터셋을 포함한 모델을 완전히 오픈소스로 공개한다.