ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
Autoren: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

Zusammenfassung

Wir stellen Pixtral-12B vor, ein multimodales Sprachmodell mit 12 Milliarden Parametern. Pixtral-12B ist darauf trainiert, sowohl natürliche Bilder als auch Dokumente zu verstehen und erzielt führende Leistungen in verschiedenen multimodalen Benchmarks, wobei es eine Reihe größerer Modelle übertrifft. Im Gegensatz zu vielen Open-Source-Modellen ist Pixtral auch ein hochmoderner Text-Encoder seiner Größe und geht keine Kompromisse bei der Leistung in natürlicher Sprache ein, um in multimodalen Aufgaben herauszuragen. Pixtral verwendet einen neuen Vision-Encoder, der von Grund auf trainiert wurde, was es ihm ermöglicht, Bilder in ihrer natürlichen Auflösung und Seitenverhältnis zu verarbeiten. Dies gibt den Benutzern Flexibilität hinsichtlich der Anzahl der Tokens, die zur Verarbeitung eines Bildes verwendet werden. Pixtral ist auch in der Lage, eine beliebige Anzahl von Bildern in seinem langen Kontextfenster von 128K Tokens zu verarbeiten. Pixtral 12B übertrifft deutlich andere Open-Modelle ähnlicher Größe (Llama-3.2 11B \& Qwen-2-VL 7B). Es übertrifft auch wesentlich größere Open-Modelle wie Llama-3.2 90B, während es siebenmal kleiner ist. Wir tragen außerdem einen Open-Source-Benchmark, MM-MT-Bench, zur Bewertung von Vision-Sprach-Modellen in praktischen Szenarien bei und bieten eine detaillierte Analyse und Code für standardisierte Bewertungsprotokolle für multimodale LLMs. Pixtral-12B wird unter der Apache 2.0 Lizenz veröffentlicht.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

Summary

AI-Generated Summary

PDF665November 16, 2024