OneLLM: Um Framework para Alinhar Todas as Modalidades com a Linguagem
OneLLM: One Framework to Align All Modalities with Language
December 6, 2023
Autores: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI
Resumo
Modelos de linguagem multimodal de grande escala (MLLMs) têm ganhado atenção significativa devido à sua forte capacidade de compreensão multimodal. No entanto, os trabalhos existentes dependem fortemente de codificadores específicos para cada modalidade, que geralmente diferem em arquitetura e são limitados a modalidades comuns. Neste artigo, apresentamos o OneLLM, um MLLM que alinha oito modalidades à linguagem usando uma estrutura unificada. Isso é alcançado por meio de um codificador multimodal unificado e um pipeline progressivo de alinhamento multimodal. Em detalhes, primeiro treinamos um módulo de projeção de imagem para conectar um codificador de visão a um modelo de linguagem de grande escala (LLM). Em seguida, construímos um módulo de projeção universal (UPM) misturando múltiplos módulos de projeção de imagem e roteamento dinâmico. Por fim, alinhamos progressivamente mais modalidades ao LLM usando o UPM. Para aproveitar plenamente o potencial do OneLLM na execução de instruções, também criamos um conjunto abrangente de dados de instruções multimodais, incluindo 2 milhões de itens de imagem, áudio, vídeo, nuvem de pontos, mapa de profundidade/normal, IMU e atividade cerebral por fMRI. O OneLLM é avaliado em 25 benchmarks diversos, abrangendo tarefas como legendagem multimodal, questionamento e raciocínio, onde apresenta um desempenho excelente. Código, dados, modelo e demonstração online estão disponíveis em https://github.com/csuhan/OneLLM.
English
Multimodal large language models (MLLMs) have gained significant attention
due to their strong multimodal understanding capability. However, existing
works rely heavily on modality-specific encoders, which usually differ in
architecture and are limited to common modalities. In this paper, we present
OneLLM, an MLLM that aligns eight modalities to language using a unified
framework. We achieve this through a unified multimodal encoder and a
progressive multimodal alignment pipeline. In detail, we first train an image
projection module to connect a vision encoder with LLM. Then, we build a
universal projection module (UPM) by mixing multiple image projection modules
and dynamic routing. Finally, we progressively align more modalities to LLM
with the UPM. To fully leverage the potential of OneLLM in following
instructions, we also curated a comprehensive multimodal instruction dataset,
including 2M items from image, audio, video, point cloud, depth/normal map, IMU
and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks,
encompassing tasks such as multimodal captioning, question answering and
reasoning, where it delivers excellent performance. Code, data, model and
online demo are available at https://github.com/csuhan/OneLLM