Технический отчет по Phi-4-Mini: Компактные, но мощные мультимодальные языковые модели с использованием смеси LoRAPhi-4-Mini Technical Report: Compact yet Powerful Multimodal Language
Models via Mixture-of-LoRAs
Мы представляем Phi-4-Mini и Phi-4-Multimodal — компактные, но высокопроизводительные языковые и мультимодальные модели. Phi-4-Mini — это языковая модель с 3,8 миллиардами параметров, обученная на высококачественных веб-данных и синтетических данных, которая значительно превосходит недавние модели с открытым исходным кодом аналогичного размера и соответствует производительности моделей вдвое большего размера в задачах, требующих сложных рассуждений, таких как математика и программирование. Этот результат достигнут благодаря тщательно подобранному рецепту синтетических данных с акцентом на высококачественные наборы данных по математике и программированию. По сравнению с предшественником, Phi-3.5-Mini, Phi-4-Mini имеет увеличенный размер словаря до 200 тысяч токенов для лучшей поддержки многоязычных приложений, а также групповое внимание запросов для более эффективной генерации длинных последовательностей. Phi-4-Multimodal — это мультимодальная модель, которая объединяет текстовые, визуальные и речевые/аудиовходные модальности в единую модель. Ее новаторский подход к расширению модальностей использует адаптеры LoRA и маршрутизаторы, специфичные для каждой модальности, что позволяет комбинировать различные модальности в нескольких режимах вывода без взаимного влияния. Например, она занимает первое место в рейтинге OpenASR на сегодняшний день, несмотря на то, что компонент LoRA для речевой/аудиомодальности имеет всего 460 миллионов параметров. Phi-4-Multimodal поддерживает сценарии, включающие (визуальные + языковые), (визуальные + речевые) и (речевые/аудио) входные данные, превосходя более крупные модели, работающие с визуальными и речевыми данными, в широком спектре задач. Кроме того, мы экспериментируем с дальнейшим обучением Phi-4-Mini для улучшения ее способностей к рассуждению. Несмотря на компактный размер в 3,8 миллиарда параметров, эта экспериментальная версия демонстрирует результаты рассуждений, сопоставимые или превосходящие значительно более крупные модели, включая DeepSeek-R1-Distill-Qwen-7B и DeepSeek-R1-Distill-Llama-8B.