ChatPaper.aiChatPaper

xGen-MM (BLIP-3): Een Familie van Open Grote Multimodale Modellen

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

August 16, 2024
Auteurs: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI

Samenvatting

Dit rapport introduceert xGen-MM (ook bekend als BLIP-3), een raamwerk voor het ontwikkelen van Grote Multimodale Modellen (LMMs). Het raamwerk omvat zorgvuldig samengestelde datasets, een trainingsrecept, modelarchitecturen en een resulterende suite van LMMs. xGen-MM, kort voor xGen-MultiModal, breidt het Salesforce xGen-initiatief uit op het gebied van fundamentele AI-modellen. Onze modellen ondergaan rigoureuze evaluaties over een reeks taken, waaronder benchmarks voor zowel enkele als meerdere afbeeldingen. Onze vooraf getrainde basismodel vertoont sterke in-context leermogelijkheden en het instructie-afgestemde model toont competitieve prestaties onder open-source LMMs met vergelijkbare modelgroottes. Daarnaast introduceren we een veiligheidsafgestemd model met DPO, gericht op het verminderen van schadelijk gedrag zoals hallucinaties en het verbeteren van de veiligheid. We maken onze modellen, de samengestelde grootschalige datasets en onze fine-tuning codebase open source om verdere vooruitgang in LMM-onderzoek te bevorderen. Gerelateerde bronnen zullen beschikbaar zijn op onze projectpagina hierboven.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.
PDF1009November 26, 2024