ChatPaper.aiChatPaper

Relatório Técnico do Phi-4-Mini: Modelos de Linguagem Multimodais Compactos, mas Poderosos, via Mistura de LoRAs

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

March 3, 2025
Autores: Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou
cs.AI

Resumo

Apresentamos o Phi-4-Mini e o Phi-4-Multimodal, modelos compactos, porém altamente capazes, de linguagem e multimodal. O Phi-4-Mini é um modelo de linguagem com 3,8 bilhões de parâmetros, treinado em dados da web de alta qualidade e dados sintéticos, superando significativamente modelos de código aberto recentes de tamanho similar e igualando o desempenho de modelos com o dobro do seu tamanho em tarefas de matemática e codificação que exigem raciocínio complexo. Esse feito é impulsionado por uma receita cuidadosamente elaborada de dados sintéticos, com ênfase em conjuntos de dados de alta qualidade para matemática e codificação. Comparado ao seu antecessor, o Phi-3.5-Mini, o Phi-4-Mini apresenta um vocabulário expandido de 200 mil tokens para melhor suportar aplicações multilíngues, além de atenção por consulta em grupo para uma geração mais eficiente de sequências longas. O Phi-4-Multimodal é um modelo multimodal que integra as modalidades de entrada de texto, visão e fala/áudio em um único modelo. Sua abordagem inovadora de extensão de modalidades utiliza adaptadores LoRA e roteadores específicos para cada modalidade, permitindo múltiplos modos de inferência que combinam diversas modalidades sem interferência. Por exemplo, ele agora ocupa o primeiro lugar no ranking OpenASR até o momento, embora o componente LoRA da modalidade de fala/áudio tenha apenas 460 milhões de parâmetros. O Phi-4-Multimodal suporta cenários que envolvem entradas de (visão + linguagem), (visão + fala) e (fala/áudio), superando modelos maiores de visão-linguagem e fala-linguagem em uma ampla gama de tarefas. Além disso, realizamos experimentos para treinar ainda mais o Phi-4-Mini, aprimorando suas capacidades de raciocínio. Apesar de seu tamanho compacto de 3,8 bilhões de parâmetros, essa versão experimental alcança desempenho de raciocínio equivalente ou superior a modelos significativamente maiores, incluindo o DeepSeek-R1-Distill-Qwen-7B e o DeepSeek-R1-Distill-Llama-8B.
English
We introduce Phi-4-Mini and Phi-4-Multimodal, compact yet highly capable language and multimodal models. Phi-4-Mini is a 3.8-billion-parameter language model trained on high-quality web and synthetic data, significantly outperforming recent open-source models of similar size and matching the performance of models twice its size on math and coding tasks requiring complex reasoning. This achievement is driven by a carefully curated synthetic data recipe emphasizing high-quality math and coding datasets. Compared to its predecessor, Phi-3.5-Mini, Phi-4-Mini features an expanded vocabulary size of 200K tokens to better support multilingual applications, as well as group query attention for more efficient long-sequence generation. Phi-4-Multimodal is a multimodal model that integrates text, vision, and speech/audio input modalities into a single model. Its novel modality extension approach leverages LoRA adapters and modality-specific routers to allow multiple inference modes combining various modalities without interference. For example, it now ranks first in the OpenASR leaderboard to date, although the LoRA component of the speech/audio modality has just 460 million parameters. Phi-4-Multimodal supports scenarios involving (vision + language), (vision + speech), and (speech/audio) inputs, outperforming larger vision-language and speech-language models on a wide range of tasks. Additionally, we experiment to further train Phi-4-Mini to enhance its reasoning capabilities. Despite its compact 3.8-billion-parameter size, this experimental version achieves reasoning performance on par with or surpassing significantly larger models, including DeepSeek-R1-Distill-Qwen-7B and DeepSeek-R1-Distill-Llama-8B.

Summary

AI-Generated Summary

PDF866March 4, 2025