Phi-4-Mini 기술 보고서: Mixture-of-LoRAs를 통한 컴팩트하면서도 강력한 멀티모달 언어 모델Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Phi-4-Mini와 Phi-4-Multimodal을 소개합니다. 이들은 컴팩트하면서도 매우 강력한 언어 및 멀티모달 모델입니다. Phi-4-Mini는 고품질 웹 데이터와 합성 데이터로 훈련된 38억 개의 파라미터를 가진 언어 모델로, 복잡한 추론이 필요한 수학 및 코딩 작업에서 비슷한 크기의 최근 오픈소스 모델들을 크게 능가하며, 그 두 배 크기의 모델들과도 성능을 맞먹습니다. 이러한 성과는 고품질 수학 및 코딩 데이터셋을 강조한 신중하게 선별된 합성 데이터 레시피에 의해 주도되었습니다. 전작인 Phi-3.5-Mini와 비교하여, Phi-4-Mini는 다국어 애플리케이션을 더 잘 지원하기 위해 20만 개의 토큰으로 확장된 어휘 크기와 더 효율적인 장문 생성을 위한 그룹 쿼리 어텐션을 특징으로 합니다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력 모달리티를 단일 모델로 통합한 멀티모달 모델입니다. 이 모델의 새로운 모달리티 확장 접근 방식은 LoRA 어댑터와 모달리티별 라우터를 활용하여 다양한 모달리티를 간섭 없이 결합한 여러 추론 모드를 가능하게 합니다. 예를 들어, 이 모델은 현재 OpenASR 리더보드에서 1위를 차지하고 있으며, 음성/오디오 모달리티의 LoRA 구성 요소는 단 4억 6천만 개의 파라미터만을 가지고 있습니다. Phi-4-Multimodal은 (비전 + 언어), (비전 + 음성), (음성/오디오) 입력을 포함한 시나리오를 지원하며, 다양한 작업에서 더 큰 비전-언어 및 음성-언어 모델들을 능가합니다. 또한, Phi-4-Mini의 추론 능력을 향상시키기 위해 추가 훈련을 실험합니다. 이 실험 버전은 38억 개의 파라미터라는 컴팩트한 크기에도 불구하고, DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B와 같은 훨씬 더 큰 모델들과 동등하거나 이를 넘어서는 추론 성능을 달성합니다.