OneLLM: Ein Framework zur Ausrichtung aller Modalitäten an Sprache

papers.abstract

Multimodale große Sprachmodelle (MLLMs) haben aufgrund ihrer starken Fähigkeit zum multimodalen Verständnis erhebliche Aufmerksamkeit erregt. Bisherige Arbeiten stützen sich jedoch stark auf modalspezifische Encoder, die sich in der Architektur unterscheiden und auf gängige Modalitäten beschränkt sind. In diesem Artikel präsentieren wir OneLLM, ein MLLM, das acht Modalitäten mithilfe eines einheitlichen Frameworks an Sprache anpasst. Dies erreichen wir durch einen einheitlichen multimodalen Encoder und eine progressive multimodale Anpassungspipeline. Im Detail trainieren wir zunächst ein Bildprojektionsmodul, um einen Vision-Encoder mit dem LLM zu verbinden. Anschließend erstellen wir ein universelles Projektionsmodul (UPM), indem wir mehrere Bildprojektionsmodule und dynamisches Routing kombinieren. Schließlich passen wir schrittweise weitere Modalitäten mithilfe des UPM an das LLM an. Um das volle Potenzial von OneLLM bei der Befolgung von Anweisungen auszuschöpfen, haben wir auch einen umfassenden multimodalen Instruktionsdatensatz zusammengestellt, der 2M Einträge aus Bildern, Audio, Videos, Punktwolken, Tiefen-/Normalenkarten, IMU und fMRI-Gehirnaktivitäten umfasst. OneLLM wird auf 25 verschiedenen Benchmarks evaluiert, die Aufgaben wie multimodale Beschriftung, Fragebeantwortung und logisches Schlussfolgern umfassen, und zeigt dabei hervorragende Leistungen. Code, Daten, Modell und eine Online-Demo sind unter https://github.com/csuhan/OneLLM verfügbar.

English

Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM

OneLLM: Ein Framework zur Ausrichtung aller Modalitäten an Sprache

OneLLM: One Framework to Align All Modalities with Language

papers.abstract

Support