ChatPaper.aiChatPaper

u-LLaVA: Vereinheitlichung multimodaler Aufgaben durch große Sprachmodelle

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

November 9, 2023
Autoren: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI

Zusammenfassung

Jüngste Fortschritte wie LLaVA und Mini-GPT4 haben erfolgreich visuelle Informationen in LLMs integriert, was inspirierende Ergebnisse liefert und eine neue Generation von multimodalen LLMs, oder MLLMs, hervorgebracht hat. Dennoch kämpfen diese Methoden mit Halluzinationen und der gegenseitigen Beeinflussung zwischen Aufgaben. Um diese Probleme zu lösen, schlagen wir einen effizienten und präzisen Ansatz vor, um sich an nachgelagerte Aufgaben anzupassen, indem wir LLM als Brücke nutzen, um mehrere Expertenmodelle zu verbinden, nämlich u-LLaVA. Zunächst integrieren wir das Modul zur Modalitätsausrichtung und Multitask-Module in das LLM. Dann reorganisieren oder rekonstruieren wir öffentliche Datensätze verschiedener Typen, um eine effiziente Modalitätsausrichtung und Befolgung von Anweisungen zu ermöglichen. Schließlich werden aufgabenspezifische Informationen aus dem trainierten LLM extrahiert und verschiedenen Modulen zur Lösung nachgelagerter Aufgaben bereitgestellt. Das Gesamtframework ist einfach, effektiv und erreicht state-of-the-art Leistung über mehrere Benchmarks hinweg. Wir stellen unser Modell, die generierten Daten und die Codebasis ebenfalls öffentlich zur Verfügung.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.
PDF151December 15, 2024