OneLLM: Un Framework Unico per Allineare Tutte le Modalità al Linguaggio
OneLLM: One Framework to Align All Modalities with Language
December 6, 2023
Autori: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno attirato una significativa attenzione grazie alla loro forte capacità di comprensione multimodale. Tuttavia, i lavori esistenti si basano pesantemente su encoder specifici per ciascuna modalità, che di solito differiscono nell'architettura e sono limitati alle modalità comuni. In questo articolo, presentiamo OneLLM, un MLLM che allinea otto modalità al linguaggio utilizzando un framework unificato. Raggiungiamo questo obiettivo attraverso un encoder multimodale unificato e una pipeline progressiva di allineamento multimodale. Nel dettaglio, addestriamo prima un modulo di proiezione delle immagini per connettere un encoder visivo con l'LLM. Successivamente, costruiamo un modulo di proiezione universale (UPM) mescolando più moduli di proiezione delle immagini e utilizzando il routing dinamico. Infine, allineiamo progressivamente più modalità all'LLM con l'UPM. Per sfruttare appieno il potenziale di OneLLM nel seguire le istruzioni, abbiamo anche curato un dataset completo di istruzioni multimodali, includendo 2 milioni di elementi provenienti da immagini, audio, video, nuvole di punti, mappe di profondità/normali, IMU e attività cerebrale fMRI. OneLLM è valutato su 25 benchmark diversi, che comprendono compiti come la descrizione multimodale, il question answering e il ragionamento, dove dimostra prestazioni eccellenti. Codice, dati, modello e demo online sono disponibili all'indirizzo https://github.com/csuhan/OneLLM.
English
Multimodal large language models (MLLMs) have gained significant attention
due to their strong multimodal understanding capability. However, existing
works rely heavily on modality-specific encoders, which usually differ in
architecture and are limited to common modalities. In this paper, we present
OneLLM, an MLLM that aligns eight modalities to language using a unified
framework. We achieve this through a unified multimodal encoder and a
progressive multimodal alignment pipeline. In detail, we first train an image
projection module to connect a vision encoder with LLM. Then, we build a
universal projection module (UPM) by mixing multiple image projection modules
and dynamic routing. Finally, we progressively align more modalities to LLM
with the UPM. To fully leverage the potential of OneLLM in following
instructions, we also curated a comprehensive multimodal instruction dataset,
including 2M items from image, audio, video, point cloud, depth/normal map, IMU
and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks,
encompassing tasks such as multimodal captioning, question answering and
reasoning, where it delivers excellent performance. Code, data, model and
online demo are available at https://github.com/csuhan/OneLLM