ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
Autores: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

Resumen

Presentamos Pixtral-12B, un modelo de lenguaje multimodal de 12 mil millones de parámetros. Pixtral-12B está entrenado para comprender tanto imágenes naturales como documentos, logrando un rendimiento líder en varios puntos de referencia multimodales, superando a varios modelos más grandes. A diferencia de muchos modelos de código abierto, Pixtral es también un modelo de texto de vanguardia para su tamaño y no compromete el rendimiento en lenguaje natural para destacarse en tareas multimodales. Pixtral utiliza un nuevo codificador de visión entrenado desde cero, lo que le permite procesar imágenes en su resolución y relación de aspecto naturales. Esto brinda a los usuarios flexibilidad en la cantidad de tokens utilizados para procesar una imagen. Pixtral también puede procesar cualquier cantidad de imágenes en su ventana de contexto largo de 128K tokens. Pixtral 12B supera sustancialmente a otros modelos abiertos de tamaños similares (Llama-3.2 11B y Qwen-2-VL 7B). También supera a modelos abiertos mucho más grandes como Llama-3.2 90B siendo 7 veces más pequeño. Además, contribuimos con un punto de referencia de código abierto, MM-MT-Bench, para evaluar modelos de visión-lenguaje en escenarios prácticos, y proporcionamos un análisis detallado y código para protocolos de evaluación estandarizados para LLMs multimodales. Pixtral-12B se publica bajo la licencia Apache 2.0.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

Summary

AI-Generated Summary

PDF665November 16, 2024