Phi-4-Mini技術レポート:Mixture-of-LoRAsによるコンパクトで強力なマルチモーダル言語モデルPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Phi-4-MiniとPhi-4-Multimodalを紹介します。これらはコンパクトでありながら高い能力を備えた言語モデルとマルチモーダルモデルです。Phi-4-Miniは、高品質なウェブデータと合成データでトレーニングされた38億パラメータの言語モデルで、複雑な推論を必要とする数学やコーディングタスクにおいて、類似サイズの最近のオープンソースモデルを大幅に上回り、その2倍のサイズのモデルと同等の性能を発揮します。この成果は、高品質な数学とコーディングデータセットを重視した慎重に選ばれた合成データレシピによってもたらされています。前身のPhi-3.5-Miniと比較して、Phi-4-Miniは多言語アプリケーションをより良くサポートするために20万トークンの拡張された語彙サイズを特徴とし、また、長いシーケンス生成をより効率的にするためのグループクエリアテンションを備えています。Phi-4-Multimodalは、テキスト、視覚、音声/オーディオの入力モダリティを単一のモデルに統合したマルチモーダルモデルです。その新しいモダリティ拡張アプローチは、LoRAアダプターとモダリティ固有のルーターを活用して、さまざまなモダリティを干渉なく組み合わせた複数の推論モードを可能にします。例えば、音声/オーディオモダリティのLoRAコンポーネントがわずか4億6000万パラメータであるにもかかわらず、現在OpenASRリーダーボードで首位を獲得しています。Phi-4-Multimodalは、(視覚+言語)、(視覚+音声)、および(音声/オーディオ)入力を含むシナリオをサポートし、幅広いタスクにおいてより大きな視覚言語モデルや音声言語モデルを上回ります。さらに、Phi-4-Miniの推論能力を向上させるために、追加のトレーニング実験を行いました。この実験バージョンは、コンパクトな38億パラメータのサイズにもかかわらず、DeepSeek-R1-Distill-Qwen-7BやDeepSeek-R1-Distill-Llama-8Bを含む、はるかに大きなモデルと同等またはそれ以上の推論性能を達成しています。