ChatPaper.aiChatPaper

OneLLM : Un cadre unique pour aligner toutes les modalités avec le langage

OneLLM: One Framework to Align All Modalities with Language

December 6, 2023
Auteurs: Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLM) ont suscité un intérêt considérable en raison de leur forte capacité de compréhension multimodale. Cependant, les travaux existants reposent largement sur des encodeurs spécifiques à chaque modalité, qui diffèrent généralement en architecture et sont limités aux modalités courantes. Dans cet article, nous présentons OneLLM, un MLLM qui aligne huit modalités au langage en utilisant un cadre unifié. Nous y parvenons grâce à un encodeur multimodal unifié et à un pipeline d'alignement multimodal progressif. Plus précisément, nous commençons par entraîner un module de projection d'image pour connecter un encodeur visuel à un modèle de langage (LLM). Ensuite, nous construisons un module de projection universel (UPM) en combinant plusieurs modules de projection d'image et un routage dynamique. Enfin, nous alignons progressivement davantage de modalités au LLM avec l'UPM. Pour exploiter pleinement le potentiel de OneLLM dans le suivi d'instructions, nous avons également constitué un ensemble de données d'instructions multimodales complet, comprenant 2 millions d'éléments provenant d'images, d'audio, de vidéos, de nuages de points, de cartes de profondeur/normales, de capteurs IMU et d'activité cérébrale par IRMf. OneLLM est évalué sur 25 benchmarks diversifiés, couvrant des tâches telles que la description multimodale, la réponse à des questions et le raisonnement, où il démontre des performances excellentes. Le code, les données, le modèle et une démonstration en ligne sont disponibles à l'adresse https://github.com/csuhan/OneLLM.
English
Multimodal large language models (MLLMs) have gained significant attention due to their strong multimodal understanding capability. However, existing works rely heavily on modality-specific encoders, which usually differ in architecture and are limited to common modalities. In this paper, we present OneLLM, an MLLM that aligns eight modalities to language using a unified framework. We achieve this through a unified multimodal encoder and a progressive multimodal alignment pipeline. In detail, we first train an image projection module to connect a vision encoder with LLM. Then, we build a universal projection module (UPM) by mixing multiple image projection modules and dynamic routing. Finally, we progressively align more modalities to LLM with the UPM. To fully leverage the potential of OneLLM in following instructions, we also curated a comprehensive multimodal instruction dataset, including 2M items from image, audio, video, point cloud, depth/normal map, IMU and fMRI brain activity. OneLLM is evaluated on 25 diverse benchmarks, encompassing tasks such as multimodal captioning, question answering and reasoning, where it delivers excellent performance. Code, data, model and online demo are available at https://github.com/csuhan/OneLLM
PDF240December 15, 2024