Rapport technique Phi-4-Mini : Des modèles de langage multimodaux compacts mais puissants grâce au mélange de LoRAsPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Nous présentons Phi-4-Mini et Phi-4-Multimodal, des modèles de langage et multimodaux compacts mais hautement performants. Phi-4-Mini est un modèle de langage de 3,8 milliards de paramètres entraîné sur des données web de haute qualité et des données synthétiques, surpassant significativement les modèles open-source récents de taille similaire et égalant les performances de modèles deux fois plus grands sur des tâches de mathématiques et de codage nécessitant un raisonnement complexe. Cette performance est rendue possible grâce à une recette de données synthétiques soigneusement élaborée, mettant l'accent sur des ensembles de données de haute qualité en mathématiques et en codage. Par rapport à son prédécesseur, Phi-3.5-Mini, Phi-4-Mini dispose d'une taille de vocabulaire étendue à 200 000 tokens pour mieux supporter les applications multilingues, ainsi que d'une attention par groupe de requêtes (group query attention) pour une génération de séquences longues plus efficace. Phi-4-Multimodal est un modèle multimodal qui intègre les modalités de texte, vision et parole/audio dans un seul modèle. Son approche novatrice d'extension de modalités exploite des adaptateurs LoRA et des routeurs spécifiques à chaque modalité pour permettre plusieurs modes d'inférence combinant diverses modalités sans interférence. Par exemple, il occupe désormais la première place du classement OpenASR à ce jour, bien que le composant LoRA de la modalité parole/audio ne compte que 460 millions de paramètres. Phi-4-Multimodal prend en charge des scénarios impliquant des entrées (vision + langage), (vision + parole) et (parole/audio), surpassant des modèles vision-langage et parole-langage plus grands sur une large gamme de tâches. De plus, nous expérimentons un entraînement supplémentaire de Phi-4-Mini pour améliorer ses capacités de raisonnement. Malgré sa taille compacte de 3,8 milliards de paramètres, cette version expérimentale atteint des performances de raisonnement comparables ou supérieures à des modèles nettement plus grands, notamment DeepSeek-R1-Distill-Qwen-7B et DeepSeek-R1-Distill-Llama-8B.