xGen-MM (BLIP-3): Uma Família de Modelos Multimodais Grandes e AbertosxGen-MM (BLIP-3): A Family of Open Large Multimodal Models
Este relatório apresenta o xGen-MM (também conhecido como BLIP-3), um framework para desenvolver Modelos Multimodais Grandes (LMMs). O framework inclui conjuntos de dados meticulosamente selecionados, uma receita de treinamento, arquiteturas de modelo e uma série resultante de LMMs. O xGen-MM, abreviação de xGen-MultiModal, expande a iniciativa xGen da Salesforce em modelos de IA fundamentais. Nossos modelos passam por uma avaliação rigorosa em uma variedade de tarefas, incluindo benchmarks de imagem única e multiimagem. Nosso modelo base pré-treinado exibe fortes capacidades de aprendizado em contexto e o modelo ajustado para instruções demonstra desempenho competitivo entre os LMMs de código aberto com tamanhos de modelo semelhantes. Além disso, introduzimos um modelo ajustado para segurança com DPO, com o objetivo de mitigar comportamentos prejudiciais, como alucinações, e melhorar a segurança. Disponibilizamos nossos modelos de código aberto, conjuntos de dados em grande escala selecionados e nossa base de códigos de ajuste fino para facilitar avanços adicionais na pesquisa de LMMs. Os recursos associados estarão disponíveis em nossa página do projeto acima.