ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
Auteurs: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

Résumé

Nous présentons Pixtral-12B, un modèle de langage multimodal de 12 milliards de paramètres. Pixtral-12B est entraîné pour comprendre à la fois les images naturelles et les documents, atteignant des performances de premier plan sur divers benchmarks multimodaux, dépassant un certain nombre de modèles plus grands. Contrairement à de nombreux modèles open source, Pixtral est également un modèle de texte de pointe pour sa taille, et ne compromet pas les performances en langage naturel pour exceller dans les tâches multimodales. Pixtral utilise un nouvel encodeur vision entraîné à partir de zéro, ce qui lui permet d'ingérer des images à leur résolution et ratio d'aspect naturels. Cela donne aux utilisateurs une flexibilité sur le nombre de jetons utilisés pour traiter une image. Pixtral est également capable de traiter n'importe quel nombre d'images dans sa fenêtre de contexte longue de 128 000 jetons. Pixtral 12B surpasse considérablement d'autres modèles ouverts de tailles similaires (Llama-3.2 11B \& Qwen-2-VL 7B). Il surpasse également des modèles ouverts beaucoup plus grands comme Llama-3.2 90B tout en étant 7 fois plus petit. Nous contribuons en outre à un benchmark open source, MM-MT-Bench, pour évaluer les modèles vision-langage dans des scénarios pratiques, et fournissons une analyse détaillée et du code pour des protocoles d'évaluation normalisés pour les LLMs multimodaux. Pixtral-12B est publié sous licence Apache 2.0.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

Summary

AI-Generated Summary

PDF665November 16, 2024