ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
저자: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

초록

Pixtral-12B는 120억 개의 파라미터를 가진 다중 모달 언어 모델을 소개합니다. Pixtral-12B는 자연 이미지와 문서를 이해하기 위해 훈련되어 다양한 다중 모달 벤치마크에서 선도적인 성능을 달성하며, 여러 더 큰 모델을 능가합니다. 많은 오픈 소스 모델과 달리, Pixtral은 크기에 비해 최신의 텍스트 모델이기도 하며, 다중 모달 작업에서 우수한 성능을 위해 자연 언어 성능을 희생하지 않습니다. Pixtral은 이미지를 자연 해상도와 종횡비로 처리할 수 있게 해주는 새로운 비전 인코더를 처음부터 훈련하여 사용합니다. 이는 사용자가 이미지를 처리하는 데 사용되는 토큰 수에 대한 유연성을 제공합니다. 또한 Pixtral은 128K 토큰의 긴 컨텍스트 창에서 어떤 수의 이미지도 처리할 수 있습니다. Pixtral 12B는 유사한 크기의 다른 오픈 모델(Llama-3.2 11B 및 Qwen-2-VL 7B)보다 크게 능가합니다. 또한 7배 작은 크기임에도 Llama-3.2 90B와 같이 훨씬 큰 오픈 모델보다 우수한 성능을 발휘합니다. 우리는 실제 시나리오에서 비전-언어 모델을 평가하기 위한 오픈 소스 벤치마크 MM-MT-Bench를 제공하며, 다중 모달 LLMs에 대한 표준화된 평가 프로토콜에 대한 자세한 분석 및 코드를 제공합니다. Pixtral-12B는 Apache 2.0 라이선스 하에 공개되었습니다.
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

Summary

AI-Generated Summary

PDF665November 16, 2024