ChatPaper.aiChatPaper

xGen-MM (BLIP-3): Una Familia de Modelos Multimodales Grandes Abiertos

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

August 16, 2024
Autores: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI

Resumen

Este informe presenta xGen-MM (también conocido como BLIP-3), un marco para desarrollar Modelos Multimodales Grandes (LMMs). El marco incluye conjuntos de datos meticulosamente seleccionados, una receta de entrenamiento, arquitecturas de modelos y una suite resultante de LMMs. xGen-MM, abreviatura de xGen-MultiModal, amplía la iniciativa xGen de Salesforce en modelos de IA fundamentales. Nuestros modelos son sometidos a una evaluación rigurosa en una variedad de tareas, incluidas pruebas de imágenes individuales y múltiples. Nuestro modelo base preentrenado muestra fuertes capacidades de aprendizaje en contexto y el modelo ajustado a instrucciones demuestra un rendimiento competitivo entre los LMMs de código abierto con tamaños de modelo similares. Además, presentamos un modelo ajustado a la seguridad con DPO, con el objetivo de mitigar comportamientos dañinos como alucinaciones y mejorar la seguridad. Ponemos nuestros modelos de código abierto, conjuntos de datos a gran escala seleccionados y nuestra base de código de ajuste fino a disposición para facilitar futuros avances en la investigación de LMMs. Los recursos asociados estarán disponibles en nuestra página de proyecto mencionada anteriormente.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

Summary

AI-Generated Summary

PDF1017November 26, 2024