Технический отчет по Baichuan-OmniBaichuan-Omni Technical Report
Выдающиеся мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают его критическую роль в практических приложениях, однако ему не хватает высокопроизводительного аналога с открытым исходным кодом. В данной статье мы представляем Baichuan-Omni, первую открытую 7B Мультимодальную Большую Языковую Модель (MLLM), способную одновременно обрабатывать и анализировать модальности изображений, видео, аудио и текста, обеспечивая продвинутый мультимодальный интерактивный опыт и высокую производительность. Мы предлагаем эффективную схему мультимодального обучения, начиная с 7B модели и проходя через два этапа мультимодальной согласованности и многозадачную донастройку по аудио, изображениям, видео и тексту. Такой подход дает языковой модели возможность эффективно обрабатывать визуальные и аудио данные. Продемонстрировав высокую производительность на различных омни-модальных и мультимодальных бенчмарках, мы стремимся, чтобы наш вклад послужил конкурентоспособным базовым уровнем для сообщества с открытым исходным кодом в продвижении понимания мультимодальности и взаимодействия в реальном времени.