Phi-4-Mini 기술 보고서: Mixture-of-LoRAs를 통한 컴팩트하면서도 강력한 멀티모달 언어 모델
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
March 3, 2025
저자: Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou
cs.AI
초록
Phi-4-Mini와 Phi-4-Multimodal을 소개합니다. 이들은 컴팩트하면서도 매우 강력한 언어 및 멀티모달 모델입니다. Phi-4-Mini는 고품질 웹 데이터와 합성 데이터로 훈련된 38억 개의 파라미터를 가진 언어 모델로, 복잡한 추론이 필요한 수학 및 코딩 작업에서 비슷한 크기의 최근 오픈소스 모델들을 크게 능가하며, 그 두 배 크기의 모델들과도 성능을 맞먹습니다. 이러한 성과는 고품질 수학 및 코딩 데이터셋을 강조한 신중하게 선별된 합성 데이터 레시피에 의해 주도되었습니다. 전작인 Phi-3.5-Mini와 비교하여, Phi-4-Mini는 다국어 애플리케이션을 더 잘 지원하기 위해 20만 개의 토큰으로 확장된 어휘 크기와 더 효율적인 장문 생성을 위한 그룹 쿼리 어텐션을 특징으로 합니다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력 모달리티를 단일 모델로 통합한 멀티모달 모델입니다. 이 모델의 새로운 모달리티 확장 접근 방식은 LoRA 어댑터와 모달리티별 라우터를 활용하여 다양한 모달리티를 간섭 없이 결합한 여러 추론 모드를 가능하게 합니다. 예를 들어, 이 모델은 현재 OpenASR 리더보드에서 1위를 차지하고 있으며, 음성/오디오 모달리티의 LoRA 구성 요소는 단 4억 6천만 개의 파라미터만을 가지고 있습니다. Phi-4-Multimodal은 (비전 + 언어), (비전 + 음성), (음성/오디오) 입력을 포함한 시나리오를 지원하며, 다양한 작업에서 더 큰 비전-언어 및 음성-언어 모델들을 능가합니다. 또한, Phi-4-Mini의 추론 능력을 향상시키기 위해 추가 훈련을 실험합니다. 이 실험 버전은 38억 개의 파라미터라는 컴팩트한 크기에도 불구하고, DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B와 같은 훨씬 더 큰 모델들과 동등하거나 이를 넘어서는 추론 성능을 달성합니다.
English
We introduce Phi-4-Mini and Phi-4-Multimodal, compact yet highly capable
language and multimodal models. Phi-4-Mini is a 3.8-billion-parameter language
model trained on high-quality web and synthetic data, significantly
outperforming recent open-source models of similar size and matching the
performance of models twice its size on math and coding tasks requiring complex
reasoning. This achievement is driven by a carefully curated synthetic data
recipe emphasizing high-quality math and coding datasets. Compared to its
predecessor, Phi-3.5-Mini, Phi-4-Mini features an expanded vocabulary size of
200K tokens to better support multilingual applications, as well as group query
attention for more efficient long-sequence generation. Phi-4-Multimodal is a
multimodal model that integrates text, vision, and speech/audio input
modalities into a single model. Its novel modality extension approach leverages
LoRA adapters and modality-specific routers to allow multiple inference modes
combining various modalities without interference. For example, it now ranks
first in the OpenASR leaderboard to date, although the LoRA component of the
speech/audio modality has just 460 million parameters. Phi-4-Multimodal
supports scenarios involving (vision + language), (vision + speech), and
(speech/audio) inputs, outperforming larger vision-language and speech-language
models on a wide range of tasks. Additionally, we experiment to further train
Phi-4-Mini to enhance its reasoning capabilities. Despite its compact
3.8-billion-parameter size, this experimental version achieves reasoning
performance on par with or surpassing significantly larger models, including
DeepSeek-R1-Distill-Qwen-7B and DeepSeek-R1-Distill-Llama-8B.Summary
AI-Generated Summary