xGen-MM (BLIP-3): Eine Familie von offenen großen multimodalen Modellen
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
August 16, 2024
Autoren: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI
Zusammenfassung
Dieser Bericht stellt xGen-MM (auch bekannt als BLIP-3) vor, ein Framework zur Entwicklung großer multimodaler Modelle (LMMs). Das Framework umfasst sorgfältig kuratierte Datensätze, ein Schulungsrezept, Modellarchitekturen und eine Reihe von LMMs. xGen-MM, kurz für xGen-MultiModal, erweitert die Salesforce xGen-Initiative zu Grundlagen-KI-Modellen. Unsere Modelle durchlaufen eine gründliche Bewertung über eine Vielzahl von Aufgaben, einschließlich Einzel- und Mehrbild-Benchmarks. Unser vorab trainiertes Basismodell zeigt starke Fähigkeiten zum kontextbezogenen Lernen, und das instruktionsangepasste Modell zeigt eine wettbewerbsfähige Leistung im Vergleich zu Open-Source-LMMs ähnlicher Modellgrößen. Darüber hinaus stellen wir ein sicherheitsangepasstes Modell mit DPO vor, das darauf abzielt, schädliches Verhalten wie Halluzinationen zu mildern und die Sicherheit zu verbessern. Wir stellen unsere Modelle, sorgfältig kuratierte Datensätze im großen Maßstab und unsere Feinabstimmungs-Codebasis als Open Source zur Verfügung, um weitere Fortschritte in der LMM-Forschung zu erleichtern. Zugehörige Ressourcen werden auf unserer Projektseite oben verfügbar sein.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for
developing Large Multimodal Models (LMMs). The framework comprises meticulously
curated datasets, a training recipe, model architectures, and a resulting suite
of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen
initiative on foundation AI models. Our models undergo rigorous evaluation
across a range of tasks, including both single and multi-image benchmarks. Our
pre-trained base model exhibits strong in-context learning capabilities and the
instruction-tuned model demonstrates competitive performance among open-source
LMMs with similar model sizes. In addition, we introduce a safety-tuned model
with DPO, aiming to mitigate harmful behaviors such as hallucinations and
improve safety. We open-source our models, curated large-scale datasets, and
our fine-tuning codebase to facilitate further advancements in LMM research.
Associated resources will be available on our project page above.Summary
AI-Generated Summary