xGen-MM (BLIP-3): Una Familia de Modelos Multimodales Grandes Abiertos

Resumen

Este informe presenta xGen-MM (también conocido como BLIP-3), un marco para desarrollar Modelos Multimodales Grandes (LMMs). El marco incluye conjuntos de datos meticulosamente seleccionados, una receta de entrenamiento, arquitecturas de modelos y una suite resultante de LMMs. xGen-MM, abreviatura de xGen-MultiModal, amplía la iniciativa xGen de Salesforce en modelos de IA fundamentales. Nuestros modelos son sometidos a una evaluación rigurosa en una variedad de tareas, incluidas pruebas de imágenes individuales y múltiples. Nuestro modelo base preentrenado muestra fuertes capacidades de aprendizaje en contexto y el modelo ajustado a instrucciones demuestra un rendimiento competitivo entre los LMMs de código abierto con tamaños de modelo similares. Además, presentamos un modelo ajustado a la seguridad con DPO, con el objetivo de mitigar comportamientos dañinos como alucinaciones y mejorar la seguridad. Ponemos nuestros modelos de código abierto, conjuntos de datos a gran escala seleccionados y nuestra base de código de ajuste fino a disposición para facilitar futuros avances en la investigación de LMMs. Los recursos asociados estarán disponibles en nuestra página de proyecto mencionada anteriormente.

English

This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

xGen-MM (BLIP-3): Una Familia de Modelos Multimodales Grandes Abiertos

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Resumen

Support