Relatório Técnico do Phi-4-Mini: Modelos de Linguagem Multimodais Compactos, mas Poderosos, via Mistura de LoRAsPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Apresentamos o Phi-4-Mini e o Phi-4-Multimodal, modelos compactos, porém altamente capazes, de linguagem e multimodal. O Phi-4-Mini é um modelo de linguagem com 3,8 bilhões de parâmetros, treinado em dados da web de alta qualidade e dados sintéticos, superando significativamente modelos de código aberto recentes de tamanho similar e igualando o desempenho de modelos com o dobro do seu tamanho em tarefas de matemática e codificação que exigem raciocínio complexo. Esse feito é impulsionado por uma receita cuidadosamente elaborada de dados sintéticos, com ênfase em conjuntos de dados de alta qualidade para matemática e codificação. Comparado ao seu antecessor, o Phi-3.5-Mini, o Phi-4-Mini apresenta um vocabulário expandido de 200 mil tokens para melhor suportar aplicações multilíngues, além de atenção por consulta em grupo para uma geração mais eficiente de sequências longas. O Phi-4-Multimodal é um modelo multimodal que integra as modalidades de entrada de texto, visão e fala/áudio em um único modelo. Sua abordagem inovadora de extensão de modalidades utiliza adaptadores LoRA e roteadores específicos para cada modalidade, permitindo múltiplos modos de inferência que combinam diversas modalidades sem interferência. Por exemplo, ele agora ocupa o primeiro lugar no ranking OpenASR até o momento, embora o componente LoRA da modalidade de fala/áudio tenha apenas 460 milhões de parâmetros. O Phi-4-Multimodal suporta cenários que envolvem entradas de (visão + linguagem), (visão + fala) e (fala/áudio), superando modelos maiores de visão-linguagem e fala-linguagem em uma ampla gama de tarefas. Além disso, realizamos experimentos para treinar ainda mais o Phi-4-Mini, aprimorando suas capacidades de raciocínio. Apesar de seu tamanho compacto de 3,8 bilhões de parâmetros, essa versão experimental alcança desempenho de raciocínio equivalente ou superior a modelos significativamente maiores, incluindo o DeepSeek-R1-Distill-Qwen-7B e o DeepSeek-R1-Distill-Llama-8B.