VITA: К открытому исходному коду интерактивной общей мультимодальной модели языка.VITA: Towards Open-Source Interactive Omni Multimodal LLM
Замечательные мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают их необходимость в практических приложениях, однако модели с открытым исходным кодом редко выдают выдающиеся результаты в обеих областях. В данной статье мы представляем VITA, первую в своем роде открытую мультимодальную крупномасштабную языковую модель (MLLM), способную к одновременной обработке и анализу видео-, изображений-, текстовых и аудио-модальностей, обладающую при этом продвинутым мультимодальным интерактивным опытом. Начиная с Mixtral 8x7B в качестве языкового фундамента, мы расширяем его китайский словарный запас, а затем проводим настройку двуязычных инструкций. Мы также наделяем языковую модель возможностями видео- и аудио-обработки через двухэтапное многозадачное обучение мультимодальной выравнивающей и настраивающей инструкции. VITA демонстрирует надежные базовые возможности мультиязычного, видео- и аудио-понимания, что подтверждается ее высокой производительностью на ряде как унимодальных, так и мультимодальных бенчмарков. Помимо базовых возможностей, мы сделали значительные успехи в улучшении естественного мультимодального человеко-компьютерного взаимодействия. На наш взгляд, мы первые, кто использует невозбуждающее взаимодействие и аудио-прерывание в MLLM. VITA - первый шаг для сообщества с открытым исходным кодом в исследовании плавного интегрирования мультимодального понимания и взаимодействия. Хотя еще много работы предстоит сделать над VITA, чтобы приблизиться к закрытым аналогам, мы надеемся, что ее роль пионера может послужить угловым камнем для последующих исследований. Страница проекта: https://vita-home.github.io.