OneLLM: Ein Framework zur Ausrichtung aller Modalitäten an Sprache
OneLLM: One Framework to Align All Modalities with Language
December 6, 2023
Autoren: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben aufgrund ihrer starken Fähigkeit zum multimodalen Verständnis erhebliche Aufmerksamkeit erregt. Bisherige Arbeiten stützen sich jedoch stark auf modalspezifische Encoder, die sich in der Architektur unterscheiden und auf gängige Modalitäten beschränkt sind. In diesem Artikel präsentieren wir OneLLM, ein MLLM, das acht Modalitäten mithilfe eines einheitlichen Frameworks an Sprache anpasst. Dies erreichen wir durch einen einheitlichen multimodalen Encoder und eine progressive multimodale Anpassungspipeline. Im Detail trainieren wir zunächst ein Bildprojektionsmodul, um einen Vision-Encoder mit dem LLM zu verbinden. Anschließend erstellen wir ein universelles Projektionsmodul (UPM), indem wir mehrere Bildprojektionsmodule und dynamisches Routing kombinieren. Schließlich passen wir schrittweise weitere Modalitäten mithilfe des UPM an das LLM an. Um das volle Potenzial von OneLLM bei der Befolgung von Anweisungen auszuschöpfen, haben wir auch einen umfassenden multimodalen Instruktionsdatensatz zusammengestellt, der 2M Einträge aus Bildern, Audio, Videos, Punktwolken, Tiefen-/Normalenkarten, IMU und fMRI-Gehirnaktivitäten umfasst. OneLLM wird auf 25 verschiedenen Benchmarks evaluiert, die Aufgaben wie multimodale Beschriftung, Fragebeantwortung und logisches Schlussfolgern umfassen, und zeigt dabei hervorragende Leistungen. Code, Daten, Modell und eine Online-Demo sind unter https://github.com/csuhan/OneLLM verfügbar.
English
Multimodal large language models (MLLMs) have gained significant attention
due to their strong multimodal understanding capability. However, existing
works rely heavily on modality-specific encoders, which usually differ in
architecture and are limited to common modalities. In this paper, we present
OneLLM, an MLLM that aligns eight modalities to language using a unified
framework. We achieve this through a unified multimodal encoder and a
progressive multimodal alignment pipeline. In detail, we first train an image
projection module to connect a vision encoder with LLM. Then, we build a
universal projection module (UPM) by mixing multiple image projection modules
and dynamic routing. Finally, we progressively align more modalities to LLM
with the UPM. To fully leverage the potential of OneLLM in following
instructions, we also curated a comprehensive multimodal instruction dataset,
including 2M items from image, audio, video, point cloud, depth/normal map, IMU
and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks,
encompassing tasks such as multimodal captioning, question answering and
reasoning, where it delivers excellent performance. Code, data, model and
online demo are available at https://github.com/csuhan/OneLLM