u-LLaVA : Unification des tâches multi-modales via un modèle de langage de grande taille
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
November 9, 2023
Auteurs: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI
Résumé
Les récentes avancées telles que LLaVA et Mini-GPT4 ont réussi à intégrer des informations visuelles dans les LLM, produisant des résultats inspirants et donnant naissance à une nouvelle génération de LLM multi-modaux, ou MLLM. Cependant, ces méthodes rencontrent des difficultés avec les hallucinations et les interférences mutuelles entre les tâches. Pour résoudre ces problèmes, nous proposons une approche efficace et précise pour s'adapter aux tâches en aval en utilisant le LLM comme pont pour connecter plusieurs modèles experts, nommément u-LLaVA. Premièrement, nous intégrons le module d'alignement des modalités et les modules multi-tâches dans le LLM. Ensuite, nous réorganisons ou reconstruisons des ensembles de données publics de différents types pour permettre un alignement efficace des modalités et un suivi des instructions. Enfin, les informations spécifiques à chaque tâche sont extraites du LLM entraîné et fournies à différents modules pour résoudre les tâches en aval. Le cadre global est simple, efficace, et atteint des performances de pointe sur plusieurs benchmarks. Nous rendons également notre modèle, les données générées et la base de code publiquement disponibles.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated
visual information into LLMs, yielding inspiring outcomes and giving rise to a
new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods
struggle with hallucinations and the mutual interference between tasks. To
tackle these problems, we propose an efficient and accurate approach to adapt
to downstream tasks by utilizing LLM as a bridge to connect multiple expert
models, namely u-LLaVA. Firstly, we incorporate the modality alignment module
and multi-task modules into LLM. Then, we reorganize or rebuild multi-type
public datasets to enable efficient modality alignment and instruction
following. Finally, task-specific information is extracted from the trained LLM
and provided to different modules for solving downstream tasks. The overall
framework is simple, effective, and achieves state-of-the-art performance
across multiple benchmarks. We also release our model, the generated data, and
the code base publicly available.