ChatPaper.aiChatPaper

u-LLaVA : Unification des tâches multi-modales via un modèle de langage de grande taille

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

November 9, 2023
Auteurs: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI

Résumé

Les récentes avancées telles que LLaVA et Mini-GPT4 ont réussi à intégrer des informations visuelles dans les LLM, produisant des résultats inspirants et donnant naissance à une nouvelle génération de LLM multi-modaux, ou MLLM. Cependant, ces méthodes rencontrent des difficultés avec les hallucinations et les interférences mutuelles entre les tâches. Pour résoudre ces problèmes, nous proposons une approche efficace et précise pour s'adapter aux tâches en aval en utilisant le LLM comme pont pour connecter plusieurs modèles experts, nommément u-LLaVA. Premièrement, nous intégrons le module d'alignement des modalités et les modules multi-tâches dans le LLM. Ensuite, nous réorganisons ou reconstruisons des ensembles de données publics de différents types pour permettre un alignement efficace des modalités et un suivi des instructions. Enfin, les informations spécifiques à chaque tâche sont extraites du LLM entraîné et fournies à différents modules pour résoudre les tâches en aval. Le cadre global est simple, efficace, et atteint des performances de pointe sur plusieurs benchmarks. Nous rendons également notre modèle, les données générées et la base de code publiquement disponibles.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.
PDF151December 15, 2024