u-LLaVA: Unificação de Tarefas Multimodais via Modelo de Linguagem de Grande Escala
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
November 9, 2023
Autores: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI
Resumo
Avanços recentes, como o LLaVA e o Mini-GPT4, integraram com sucesso informações visuais em LLMs, gerando resultados inspiradores e dando origem a uma nova geração de LLMs multimodais, ou MLLMs. No entanto, esses métodos enfrentam desafios com alucinações e a interferência mútua entre tarefas. Para resolver esses problemas, propomos uma abordagem eficiente e precisa para adaptação a tarefas subsequentes, utilizando o LLM como uma ponte para conectar múltiplos modelos especializados, denominada u-LLaVA. Primeiramente, incorporamos o módulo de alinhamento de modalidades e os módulos multitarefa ao LLM. Em seguida, reorganizamos ou reconstruímos conjuntos de dados públicos de múltiplos tipos para permitir um alinhamento eficiente de modalidades e o seguimento de instruções. Por fim, informações específicas da tarefa são extraídas do LLM treinado e fornecidas a diferentes módulos para a resolução de tarefas subsequentes. O framework geral é simples, eficaz e alcança desempenho de ponta em múltiplos benchmarks. Também disponibilizamos publicamente nosso modelo, os dados gerados e a base de código.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated
visual information into LLMs, yielding inspiring outcomes and giving rise to a
new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods
struggle with hallucinations and the mutual interference between tasks. To
tackle these problems, we propose an efficient and accurate approach to adapt
to downstream tasks by utilizing LLM as a bridge to connect multiple expert
models, namely u-LLaVA. Firstly, we incorporate the modality alignment module
and multi-task modules into LLM. Then, we reorganize or rebuild multi-type
public datasets to enable efficient modality alignment and instruction
following. Finally, task-specific information is extracted from the trained LLM
and provided to different modules for solving downstream tasks. The overall
framework is simple, effective, and achieves state-of-the-art performance
across multiple benchmarks. We also release our model, the generated data, and
the code base publicly available.