ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
Auteurs: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

Samenvatting

We introduceren Pixtral-12B, een 12 miljard parameters multimodaal taalmodel. Pixtral-12B is getraind om zowel natuurlijke afbeeldingen als documenten te begrijpen en behaalt toonaangevende prestaties op verschillende multimodale benchmarks, waarbij het een aantal grotere modellen overtreft. In tegenstelling tot veel open-source modellen is Pixtral ook een geavanceerd tekstmodel gezien zijn omvang, en doet geen concessies aan de prestaties in natuurlijke taal om uit te blinken in multimodale taken. Pixtral maakt gebruik van een nieuwe vision encoder die vanaf nul is getraind, waardoor het in staat is om afbeeldingen in hun natuurlijke resolutie en beeldverhouding te verwerken. Dit geeft gebruikers flexibiliteit in het aantal tokens dat wordt gebruikt om een afbeelding te verwerken. Pixtral is ook in staat om elk aantal afbeeldingen te verwerken in zijn lange contextvenster van 128K tokens. Pixtral 12B presteert aanzienlijk beter dan andere open modellen van vergelijkbare grootte (Llama-3.2 11B \& Qwen-2-VL 7B). Het presteert ook beter dan veel grotere open modellen zoals Llama-3.2 90B, terwijl het 7x kleiner is. We dragen verder bij aan een open-source benchmark, MM-MT-Bench, voor het evalueren van visie-taalmodellen in praktijksituaties, en bieden gedetailleerde analyse en code voor gestandaardiseerde evaluatieprotocollen voor multimodale LLM's. Pixtral-12B wordt uitgebracht onder de Apache 2.0-licentie.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

Summary

AI-Generated Summary

PDF665November 16, 2024