Informe Técnico de Phi-4-Mini: Modelos de Lenguaje Multimodales Compactos pero Potentes mediante Mezcla de LoRAsPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Presentamos Phi-4-Mini y Phi-4-Multimodal, modelos compactos pero altamente capaces en lenguaje y multimodalidad. Phi-4-Mini es un modelo de lenguaje de 3.800 millones de parámetros entrenado con datos web de alta calidad y datos sintéticos, superando significativamente a modelos recientes de código abierto de tamaño similar y equiparando el rendimiento de modelos del doble de su tamaño en tareas de matemáticas y programación que requieren razonamiento complejo. Este logro se debe a una receta cuidadosamente curada de datos sintéticos que enfatiza conjuntos de datos de alta calidad en matemáticas y programación. En comparación con su predecesor, Phi-3.5-Mini, Phi-4-Mini presenta un tamaño de vocabulario ampliado a 200.000 tokens para apoyar mejor aplicaciones multilingües, así como atención de consulta grupal para una generación más eficiente de secuencias largas. Phi-4-Multimodal es un modelo multimodal que integra modalidades de entrada de texto, visión y habla/audio en un solo modelo. Su novedoso enfoque de extensión de modalidades aprovecha adaptadores LoRA y enrutadores específicos por modalidad para permitir múltiples modos de inferencia que combinan varias modalidades sin interferencias. Por ejemplo, ahora ocupa el primer lugar en el ranking OpenASR hasta la fecha, aunque el componente LoRA de la modalidad de habla/audio tiene solo 460 millones de parámetros. Phi-4-Multimodal soporta escenarios que involucran entradas de (visión + lenguaje), (visión + habla) y (habla/audio), superando a modelos más grandes de visión-lenguaje y habla-lenguaje en una amplia gama de tareas. Además, experimentamos con un entrenamiento adicional de Phi-4-Mini para mejorar sus capacidades de razonamiento. A pesar de su tamaño compacto de 3.800 millones de parámetros, esta versión experimental logra un rendimiento de razonamiento comparable o superior a modelos significativamente más grandes, incluyendo DeepSeek-R1-Distill-Qwen-7B y DeepSeek-R1-Distill-Llama-8B.