ChatPaper.aiChatPaper

Pixtral 12B

Pixtral 12B

October 9, 2024
著者: Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang
cs.AI

要旨

Pixtral-12Bは、120億パラメータのマルチモーダル言語モデルです。 Pixtral-12Bは、自然画像と文書の両方を理解するように訓練されており、 さまざまなマルチモーダルベンチマークで傑出したパフォーマンスを達成し、いくつかのより大きなモデルを凌駕しています。多くのオープンソースモデルとは異なり、Pixtralはそのサイズにおいても最先端のテキストモデルであり、マルチモーダルタスクで優れた性能を発揮するために自然言語のパフォーマンスを犠牲にしていません。Pixtralは、ゼロから訓練された新しいビジョンエンコーダを使用しており、これにより画像をその自然な解像度とアスペクト比で取り込むことができます。これにより、画像を処理するために使用されるトークンの数に柔軟性が生まれます。Pixtralは、128Kトークンの長いコンテキストウィンドウで任意の数の画像を処理することができます。Pixtral 12Bは、同様のサイズの他のオープンモデル(Llama-3.2 11B&Qwen-2-VL 7B)よりも大幅に優れており、Llama-3.2 90Bなどのはるかに大きなオープンモデルを7倍小さくしながらも上回っています。さらに、実践的なシナリオでビジョン言語モデルを評価するためのオープンソースベンチマークであるMM-MT-Benchを提供し、マルチモーダルLLMの標準化された評価プロトコルの詳細な分析とコードを提供しています。Pixtral-12BはApache 2.0ライセンスの下でリリースされています。
English
We introduce Pixtral-12B, a 12--billion-parameter multimodal language model. Pixtral-12B is trained to understand both natural images and documents, achieving leading performance on various multimodal benchmarks, surpassing a number of larger models. Unlike many open-source models, Pixtral is also a cutting-edge text model for its size, and does not compromise on natural language performance to excel in multimodal tasks. Pixtral uses a new vision encoder trained from scratch, which allows it to ingest images at their natural resolution and aspect ratio. This gives users flexibility on the number of tokens used to process an image. Pixtral is also able to process any number of images in its long context window of 128K tokens. Pixtral 12B substanially outperforms other open models of similar sizes (Llama-3.2 11B \& Qwen-2-VL 7B). It also outperforms much larger open models like Llama-3.2 90B while being 7x smaller. We further contribute an open-source benchmark, MM-MT-Bench, for evaluating vision-language models in practical scenarios, and provide detailed analysis and code for standardized evaluation protocols for multimodal LLMs. Pixtral-12B is released under Apache 2.0 license.

Summary

AI-Generated Summary

PDF665November 16, 2024