ChatPaper.aiChatPaper

xGen-MM (BLIP-3): Uma Família de Modelos Multimodais Grandes e Abertos

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

August 16, 2024
Autores: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI

Resumo

Este relatório apresenta o xGen-MM (também conhecido como BLIP-3), um framework para desenvolver Modelos Multimodais Grandes (LMMs). O framework inclui conjuntos de dados meticulosamente selecionados, uma receita de treinamento, arquiteturas de modelo e uma série resultante de LMMs. O xGen-MM, abreviação de xGen-MultiModal, expande a iniciativa xGen da Salesforce em modelos de IA fundamentais. Nossos modelos passam por uma avaliação rigorosa em uma variedade de tarefas, incluindo benchmarks de imagem única e multiimagem. Nosso modelo base pré-treinado exibe fortes capacidades de aprendizado em contexto e o modelo ajustado para instruções demonstra desempenho competitivo entre os LMMs de código aberto com tamanhos de modelo semelhantes. Além disso, introduzimos um modelo ajustado para segurança com DPO, com o objetivo de mitigar comportamentos prejudiciais, como alucinações, e melhorar a segurança. Disponibilizamos nossos modelos de código aberto, conjuntos de dados em grande escala selecionados e nossa base de códigos de ajuste fino para facilitar avanços adicionais na pesquisa de LMMs. Os recursos associados estarão disponíveis em nossa página do projeto acima.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

Summary

AI-Generated Summary

PDF1017November 26, 2024