Aria: открытая мультимодальная модель на базе смеси экспертовAria: An Open Multimodal Native Mixture-of-Experts Model
Информация поступает в различных модальностях. Мультимодальные нативные модели искусственного интеллекта необходимы для интеграции информации из реального мира и достижения всестороннего понимания. Хотя существуют проприетарные мультимодальные нативные модели, их закрытость создает препятствия для принятия, не говоря уже об адаптациях. Для заполнения этого пробела мы представляем Aria - открытую мультимодальную нативную модель с лучшей производительностью в широком спектре мультимодальных, языковых и кодировочных задач. Aria - модель смеси экспертов с 3,9 миллиарда и 3,5 миллиарда активированных параметров на визуальный токен и текстовый токен соответственно. Она превосходит Pixtral-12B и Llama3.2-11B, и конкурентоспособна по сравнению с лучшими проприетарными моделями в различных мультимодальных задачах. Мы предварительно обучаем Aria с нуля, следуя 4-ступенчатому пайплайну, который поэтапно дарит модели сильные возможности в понимании языка, мультимодальном понимании, длинном окне контекста и следовании инструкциям. Мы открываем веса модели в открытом доступе вместе с кодовой базой, которая облегчает принятие и адаптацию Aria в прикладных задачах реального мира.