ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
Autori: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

Abstract

Introduciamo Pixtral-12B, un modello linguistico multimodale con 12 miliardi di parametri. Pixtral-12B è addestrato per comprendere sia immagini naturali che documenti, ottenendo prestazioni di primo piano su vari benchmark multimodali, superando diversi modelli più grandi. A differenza di molti modelli open-source, Pixtral è anche un modello di testo all'avanguardia per le sue dimensioni e non compromette le prestazioni del linguaggio naturale per eccellere nei compiti multimodali. Pixtral utilizza un nuovo codificatore visivo addestrato da zero, che gli consente di elaborare immagini alla loro risoluzione e rapporto di aspetto naturali. Ciò offre agli utenti flessibilità sul numero di token utilizzati per elaborare un'immagine. Pixtral è in grado di elaborare qualsiasi numero di immagini nella sua finestra di contesto lunga di 128K token. Pixtral 12B supera notevolmente altri modelli aperti di dimensioni simili (Llama-3.2 11B e Qwen-2-VL 7B). Supera anche modelli aperti molto più grandi come Llama-3.2 90B pur essendo 7 volte più piccolo. Contribuiamo inoltre con un benchmark open-source, MM-MT-Bench, per valutare i modelli visione-linguaggio in scenari pratici e forniamo un'analisi dettagliata e codice per protocolli di valutazione standardizzati per i LLM multimodali. Pixtral-12B è rilasciato con licenza Apache 2.0.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.
PDF675November 16, 2024