Phi-4-Mini Technisch Rapport: Compacte maar Krachtige Multimodale Taalmodellen via Mixture-of-LoRAsPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
We introduceren Phi-4-Mini en Phi-4-Multimodal, compacte maar zeer krachtige taal- en multimodale modellen. Phi-4-Mini is een taalmodel met 3,8 miljard parameters, getraind op hoogwaardige web- en synthetische data, dat recente open-source modellen van vergelijkbare grootte aanzienlijk overtreft en de prestaties evenaart van modellen die twee keer zo groot zijn op wiskundige en programmeertaken die complex redeneren vereisen. Deze prestatie wordt mogelijk gemaakt door een zorgvuldig samengesteld synthetisch datarecept dat de nadruk legt op hoogwaardige wiskundige en programmeerdatasets. Vergeleken met zijn voorganger, Phi-3.5-Mini, beschikt Phi-4-Mini over een uitgebreide vocabulairegrootte van 200K tokens om meertalige toepassingen beter te ondersteunen, evenals group query attention voor efficiëntere generatie van lange sequenties. Phi-4-Multimodal is een multimodaal model dat tekst, beeld en spraak/audio-invoermodaliteiten integreert in één model. De nieuwe modaliteitsuitbreidingsaanpak maakt gebruik van LoRA-adapters en modaliteitsspecifieke routers om meerdere inferentiemodi te combineren zonder interferentie. Het model staat momenteel bovenaan de OpenASR-leaderboard, hoewel de LoRA-component van de spraak/audio-modaliteit slechts 460 miljoen parameters heeft. Phi-4-Multimodal ondersteunt scenario's met (beeld + taal), (beeld + spraak) en (spraak/audio) invoer, en presteert beter dan grotere visie-taal- en spraak-taalmodellen op een breed scala aan taken. Daarnaast experimenteren we met het verder trainen van Phi-4-Mini om zijn redeneervermogen te verbeteren. Ondanks zijn compacte omvang van 3,8 miljard parameters, bereikt deze experimentele versie redeneerprestaties die gelijk zijn aan of zelfs beter zijn dan aanzienlijk grotere modellen, waaronder DeepSeek-R1-Distill-Qwen-7B en DeepSeek-R1-Distill-Llama-8B.