OneLLM: Um Framework para Alinhar Todas as Modalidades com a Linguagem

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) têm ganhado atenção significativa devido à sua forte capacidade de compreensão multimodal. No entanto, os trabalhos existentes dependem fortemente de codificadores específicos para cada modalidade, que geralmente diferem em arquitetura e são limitados a modalidades comuns. Neste artigo, apresentamos o OneLLM, um MLLM que alinha oito modalidades à linguagem usando uma estrutura unificada. Isso é alcançado por meio de um codificador multimodal unificado e um pipeline progressivo de alinhamento multimodal. Em detalhes, primeiro treinamos um módulo de projeção de imagem para conectar um codificador de visão a um modelo de linguagem de grande escala (LLM). Em seguida, construímos um módulo de projeção universal (UPM) misturando múltiplos módulos de projeção de imagem e roteamento dinâmico. Por fim, alinhamos progressivamente mais modalidades ao LLM usando o UPM. Para aproveitar plenamente o potencial do OneLLM na execução de instruções, também criamos um conjunto abrangente de dados de instruções multimodais, incluindo 2 milhões de itens de imagem, áudio, vídeo, nuvem de pontos, mapa de profundidade/normal, IMU e atividade cerebral por fMRI. O OneLLM é avaliado em 25 benchmarks diversos, abrangendo tarefas como legendagem multimodal, questionamento e raciocínio, onde apresenta um desempenho excelente. Código, dados, modelo e demonstração online estão disponíveis em https://github.com/csuhan/OneLLM.

English

Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM

OneLLM: Um Framework para Alinhar Todas as Modalidades com a Linguagem

OneLLM: One Framework to Align All Modalities with Language

Resumo

Support