ChatPaper.aiChatPaper

u-LLaVA: Unificatie van Multi-Modale Taken via een Groot Taalmodel

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

November 9, 2023
Auteurs: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI

Samenvatting

Recente ontwikkelingen zoals LLaVA en Mini-GPT4 hebben visuele informatie succesvol geïntegreerd in LLM's, wat inspirerende resultaten heeft opgeleverd en aanleiding heeft gegeven tot een nieuwe generatie multi-modale LLM's, of MLLM's. Desalniettemin worstelen deze methoden met hallucinaties en de onderlinge interferentie tussen taken. Om deze problemen aan te pakken, stellen we een efficiënte en accurate aanpak voor om zich aan te passen aan downstream taken door gebruik te maken van LLM als een brug om meerdere expertmodellen te verbinden, namelijk u-LLaVA. Ten eerste integreren we het modaliteitsuitlijningsmodule en multi-taskmodules in de LLM. Vervolgens reorganiseren of herbouwen we multi-type openbare datasets om efficiënte modaliteitsuitlijning en instructievolging mogelijk te maken. Ten slotte wordt taakspecifieke informatie geëxtraheerd uit de getrainde LLM en aangeboden aan verschillende modules voor het oplossen van downstream taken. Het algehele framework is eenvoudig, effectief en behaalt state-of-the-art prestaties op meerdere benchmarks. We maken ons model, de gegenereerde data en de codebase ook publiekelijk beschikbaar.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.
PDF131February 7, 2026