Phi-4-Mini Technischer Bericht: Kompakte, aber leistungsstarke multimodale Sprachmodelle durch Mixture-of-LoRAsPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Wir stellen Phi-4-Mini und Phi-4-Multimodal vor, kompakte, aber äußerst leistungsfähige Sprach- und Multimodellmodelle. Phi-4-Mini ist ein Sprachmodell mit 3,8 Milliarden Parametern, das auf hochwertigen Web- und synthetischen Daten trainiert wurde und aktuelle Open-Source-Modelle ähnlicher Größe deutlich übertrifft sowie die Leistung von Modellen, die doppelt so groß sind, bei mathematischen und Programmieraufgaben, die komplexes Denken erfordern, erreicht. Dieser Erfolg wird durch ein sorgfältig kuratiertes synthetisches Datenrezept ermöglicht, das hochwertige mathematische und Programmierdatensätze betont. Im Vergleich zu seinem Vorgänger, Phi-3.5-Mini, verfügt Phi-4-Mini über einen erweiterten Wortschatz von 200.000 Tokens, um multilinguale Anwendungen besser zu unterstützen, sowie über Group-Query-Attention für eine effizientere Erzeugung langer Sequenzen. Phi-4-Multimodal ist ein multimodales Modell, das Text-, Bild- und Sprach-/Audio-Eingabemodalitäten in einem einzigen Modell integriert. Sein neuartiger Ansatz zur Modalerweiterung nutzt LoRA-Adapter und modalitätsspezifische Router, um mehrere Inferenzmodi zu ermöglichen, die verschiedene Modalitäten ohne Interferenz kombinieren. Beispielsweise belegt es derzeit den ersten Platz im OpenASR-Leaderboard, obwohl die LoRA-Komponente der Sprach-/Audio-Modalität nur 460 Millionen Parameter hat. Phi-4-Multimodal unterstützt Szenarien mit (Bild + Sprache), (Bild + Sprache) und (Sprache/Audio) Eingaben und übertrifft größere Vision-Sprache- und Sprach-Sprache-Modelle bei einer Vielzahl von Aufgaben. Zusätzlich experimentieren wir damit, Phi-4-Mini weiter zu trainieren, um seine Denkfähigkeiten zu verbessern. Trotz seiner kompakten Größe von 3,8 Milliarden Parametern erreicht diese experimentelle Version eine Denkleistung, die mit deutlich größeren Modellen wie DeepSeek-R1-Distill-Qwen-7B und DeepSeek-R1-Distill-Llama-8B vergleichbar ist oder diese sogar übertrifft.