xGen-MM (BLIP-3): Een Familie van Open Grote Multimodale ModellenxGen-MM (BLIP-3): A Family of Open Large Multimodal Models
Dit rapport introduceert xGen-MM (ook bekend als BLIP-3), een raamwerk voor het ontwikkelen van Grote Multimodale Modellen (LMMs). Het raamwerk omvat zorgvuldig samengestelde datasets, een trainingsrecept, modelarchitecturen en een resulterende suite van LMMs. xGen-MM, kort voor xGen-MultiModal, breidt het Salesforce xGen-initiatief uit op het gebied van fundamentele AI-modellen. Onze modellen ondergaan rigoureuze evaluaties over een reeks taken, waaronder benchmarks voor zowel enkele als meerdere afbeeldingen. Onze vooraf getrainde basismodel vertoont sterke in-context leermogelijkheden en het instructie-afgestemde model toont competitieve prestaties onder open-source LMMs met vergelijkbare modelgroottes. Daarnaast introduceren we een veiligheidsafgestemd model met DPO, gericht op het verminderen van schadelijk gedrag zoals hallucinaties en het verbeteren van de veiligheid. We maken onze modellen, de samengestelde grootschalige datasets en onze fine-tuning codebase open source om verdere vooruitgang in LMM-onderzoek te bevorderen. Gerelateerde bronnen zullen beschikbaar zijn op onze projectpagina hierboven.