u-LLaVA: Unificazione delle attività multimodali tramite modelli linguistici di grandi dimensioni

Abstract

I recenti progressi come LLaVA e Mini-GPT4 hanno integrato con successo le informazioni visive nei LLM, producendo risultati stimolanti e dando vita a una nuova generazione di LLM multimodali, o MLLM. Tuttavia, questi metodi incontrano difficoltà con le allucinazioni e l'interferenza reciproca tra i compiti. Per affrontare questi problemi, proponiamo un approccio efficiente e accurato per adattarsi ai compiti downstream utilizzando il LLM come ponte per connettere più modelli esperti, denominato u-LLaVA. In primo luogo, integriamo il modulo di allineamento delle modalità e i moduli multi-task nel LLM. Successivamente, riorganizziamo o ricostruiamo dataset pubblici di vario tipo per consentire un allineamento efficiente delle modalità e il rispetto delle istruzioni. Infine, le informazioni specifiche per il compito vengono estratte dal LLM addestrato e fornite a diversi moduli per risolvere i compiti downstream. L'architettura complessiva è semplice, efficace e raggiunge prestazioni all'avanguardia su più benchmark. Rilasciamo inoltre pubblicamente il nostro modello, i dati generati e il codice.

English

Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.

u-LLaVA: Unificazione delle attività multimodali tramite modelli linguistici di grandi dimensioni

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

Abstract

Support