ChatPaper.aiChatPaper

OneLLM: Eén Framework om Alle Modaliteiten met Taal uit te Lijnen

OneLLM: One Framework to Align All Modalities with Language

December 6, 2023
Auteurs: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLMs) hebben aanzienlijke aandacht gekregen vanwege hun sterke vermogen om multimodale informatie te begrijpen. Bestaande werken vertrouwen echter sterk op modale-specifieke encoders, die meestal verschillen in architectuur en beperkt zijn tot veelvoorkomende modaliteiten. In dit artikel presenteren we OneLLM, een MLLM dat acht modaliteiten aan taal koppelt met behulp van een uniform raamwerk. We bereiken dit door middel van een uniforme multimodale encoder en een progressieve multimodale uitlijningspijplijn. In detail trainen we eerst een beeldprojectiemodule om een visuele encoder te verbinden met een LLM. Vervolgens bouwen we een universele projectiemodule (UPM) door meerdere beeldprojectiemodules te combineren en dynamische routering toe te passen. Ten slotte lijnen we progressief meer modaliteiten uit met de LLM via de UPM. Om het volledige potentieel van OneLLM in het volgen van instructies te benutten, hebben we ook een uitgebreide multimodale instructiedataset samengesteld, met 2M items uit beeld, audio, video, puntenwolk, diepte/normaalmap, IMU en fMRI-hersenactiviteit. OneLLM wordt geëvalueerd op 25 diverse benchmarks, waaronder taken zoals multimodale beschrijving, vraagbeantwoording en redenering, waar het uitstekende prestaties levert. Code, data, model en een online demo zijn beschikbaar op https://github.com/csuhan/OneLLM.
English
Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM
PDF240December 15, 2024