Pixtral 12B
Pixtral 12B
October 9, 2024
Autores: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI
Resumo
Apresentamos o Pixtral-12B, um modelo de linguagem multimodal com 12 bilhões de parâmetros. O Pixtral-12B é treinado para compreender tanto imagens naturais quanto documentos, alcançando um desempenho líder em vários benchmarks multimodais, superando diversos modelos maiores. Ao contrário de muitos modelos de código aberto, o Pixtral também é um modelo de texto de ponta para o seu tamanho e não compromete o desempenho em linguagem natural para se destacar em tarefas multimodais. O Pixtral utiliza um novo codificador de visão treinado do zero, o que permite a ingestão de imagens em sua resolução e proporção naturais. Isso oferece aos usuários flexibilidade no número de tokens usados para processar uma imagem. O Pixtral também é capaz de processar qualquer número de imagens em sua janela de contexto longa de 128 mil tokens. O Pixtral 12B supera substancialmente outros modelos abertos de tamanhos semelhantes (Llama-3.2 11B e Qwen-2-VL 7B). Também supera modelos abertos muito maiores como o Llama-3.2 90B sendo 7 vezes menor. Contribuímos ainda com um benchmark de código aberto, MM-MT-Bench, para avaliar modelos de visão-linguagem em cenários práticos, e fornecemos análises detalhadas e código para protocolos de avaliação padronizados para LLMs multimodais. O Pixtral-12B é lançado sob a licença Apache 2.0.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model.
Pixtral-12B is trained to understand both natural images and documents,
achieving leading performance on various multimodal benchmarks, surpassing a
number of larger models. Unlike many open-source models, Pixtral is also a
cutting-edge text model for its size, and does not compromise on natural
language performance to excel in multimodal tasks. Pixtral uses a new vision
encoder trained from scratch, which allows it to ingest images at their natural
resolution and aspect ratio. This gives users flexibility on the number of
tokens used to process an image. Pixtral is also able to process any number of
images in its long context window of 128K tokens. Pixtral 12B substanially
outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B).
It also outperforms much larger open models like Llama-3.2 90B while being 7x
smaller. We further contribute an open-source benchmark, MM-MT-Bench, for
evaluating vision-language models in practical scenarios, and provide detailed
analysis and code for standardized evaluation protocols for multimodal LLMs.
Pixtral-12B is released under Apache 2.0 license.Summary
AI-Generated Summary