OneLLM: Единая структура для согласования всех модальностей с языком
OneLLM: One Framework to Align All Modalities with Language
December 6, 2023
Авторы: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) привлекают значительное внимание благодаря их мощным возможностям в понимании мультимодальных данных. Однако существующие подходы в значительной степени зависят от специализированных кодировщиков для каждой модальности, которые обычно различаются по архитектуре и ограничены распространёнными модальностями. В данной статье мы представляем OneLLM — MLLM, которая объединяет восемь модальностей с языком с использованием единой архитектуры. Мы достигаем этого за счёт унифицированного мультимодального кодировщика и прогрессивного конвейера выравнивания модальностей. В частности, мы сначала обучаем модуль проекции изображений для связи визуального кодировщика с языковой моделью. Затем мы создаём универсальный модуль проекции (UPM), комбинируя несколько модулей проекции изображений и динамическую маршрутизацию. Наконец, мы постепенно выравниваем дополнительные модальности с языковой моделью с помощью UPM. Чтобы полностью раскрыть потенциал OneLLM в выполнении инструкций, мы также создали всеобъемлющий мультимодальный набор данных с инструкциями, включающий 2 миллиона элементов из изображений, аудио, видео, облаков точек, карт глубины/нормалей, данных IMU и активности мозга fMRI. OneLLM оценивается на 25 разнообразных бенчмарках, охватывающих задачи, такие как мультимодальное описание, ответы на вопросы и логические рассуждения, где она демонстрирует превосходную производительность. Код, данные, модель и онлайн-демонстрация доступны по адресу https://github.com/csuhan/OneLLM.
English
Multimodal large language models (MLLMs) have gained significant attention
due to their strong multimodal understanding capability. However, existing
works rely heavily on modality-specific encoders, which usually differ in
architecture and are limited to common modalities. In this paper, we present
OneLLM, an MLLM that aligns eight modalities to language using a unified
framework. We achieve this through a unified multimodal encoder and a
progressive multimodal alignment pipeline. In detail, we first train an image
projection module to connect a vision encoder with LLM. Then, we build a
universal projection module (UPM) by mixing multiple image projection modules
and dynamic routing. Finally, we progressively align more modalities to LLM
with the UPM. To fully leverage the potential of OneLLM in following
instructions, we also curated a comprehensive multimodal instruction dataset,
including 2M items from image, audio, video, point cloud, depth/normal map, IMU
and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks,
encompassing tasks such as multimodal captioning, question answering and
reasoning, where it delivers excellent performance. Code, data, model and
online demo are available at https://github.com/csuhan/OneLLM