xGen-MM (BLIP-3): Eine Familie von offenen großen multimodalen ModellenxGen-MM (BLIP-3): A Family of Open Large Multimodal Models
Dieser Bericht stellt xGen-MM (auch bekannt als BLIP-3) vor, ein Framework zur Entwicklung großer multimodaler Modelle (LMMs). Das Framework umfasst sorgfältig kuratierte Datensätze, ein Schulungsrezept, Modellarchitekturen und eine Reihe von LMMs. xGen-MM, kurz für xGen-MultiModal, erweitert die Salesforce xGen-Initiative zu Grundlagen-KI-Modellen. Unsere Modelle durchlaufen eine gründliche Bewertung über eine Vielzahl von Aufgaben, einschließlich Einzel- und Mehrbild-Benchmarks. Unser vorab trainiertes Basismodell zeigt starke Fähigkeiten zum kontextbezogenen Lernen, und das instruktionsangepasste Modell zeigt eine wettbewerbsfähige Leistung im Vergleich zu Open-Source-LMMs ähnlicher Modellgrößen. Darüber hinaus stellen wir ein sicherheitsangepasstes Modell mit DPO vor, das darauf abzielt, schädliches Verhalten wie Halluzinationen zu mildern und die Sicherheit zu verbessern. Wir stellen unsere Modelle, sorgfältig kuratierte Datensätze im großen Maßstab und unsere Feinabstimmungs-Codebasis als Open Source zur Verfügung, um weitere Fortschritte in der LMM-Forschung zu erleichtern. Zugehörige Ressourcen werden auf unserer Projektseite oben verfügbar sein.