Phi-4-Mini技術報告:通過混合LoRAs實現的緊湊而強大的多模態語言模型Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
我們推出Phi-4-Mini與Phi-4-Multimodal,這是一組體積小巧卻能力出眾的語言與多模態模型。Phi-4-Mini是一款擁有38億參數的語言模型,基於高品質網路與合成數據訓練而成,在需要複雜推理的數學與編程任務上,其表現不僅大幅超越近期同規模的開源模型,更可匹敵體積是其兩倍的模型。這一成就得益於精心設計的合成數據配方,特別強調高質量的數學與編程數據集。相較於前代Phi-3.5-Mini,Phi-4-Mini的詞彙量擴展至20萬個token,以更好地支持多語言應用,並採用群組查詢注意力機制,提升長序列生成的效率。Phi-4-Multimodal則是一款多模態模型,將文本、視覺及語音/音頻輸入模式整合於單一模型之中。其創新的模態擴展方法利用LoRA適配器與模態專用路由器,實現多種模態的無干擾組合推理。例如,儘管其語音/音頻模態的LoRA組件僅有4.6億參數,該模型已在OpenASR排行榜上位居首位。Phi-4-Multimodal支持(視覺+語言)、(視覺+語音)及(語音/音頻)輸入場景,在多項任務上超越更大的視覺-語言與語音-語言模型。此外,我們還對Phi-4-Mini進行了進一步訓練實驗,以增強其推理能力。儘管這款實驗版模型僅有38億參數,其推理性能卻與或超越包括DeepSeek-R1-Distill-Qwen-7B與DeepSeek-R1-Distill-Llama-8B在內的更大模型。