ChatPaper.aiChatPaper

u-LLaVA: Unificación de Tareas Multi-Modales mediante Modelos de Lenguaje de Gran Escala

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model

November 9, 2023
Autores: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI

Resumen

Los avances recientes como LLaVA y Mini-GPT4 han logrado integrar con éxito información visual en los LLM, obteniendo resultados inspiradores y dando lugar a una nueva generación de LLM multimodales, o MLLM. Sin embargo, estos métodos enfrentan dificultades con las alucinaciones y la interferencia mutua entre tareas. Para abordar estos problemas, proponemos un enfoque eficiente y preciso para adaptarse a tareas posteriores utilizando el LLM como puente para conectar múltiples modelos expertos, denominado u-LLaVA. En primer lugar, incorporamos el módulo de alineación de modalidades y los módulos multitarea en el LLM. Luego, reorganizamos o reconstruimos conjuntos de datos públicos de múltiples tipos para permitir una alineación de modalidades eficiente y el seguimiento de instrucciones. Finalmente, la información específica de la tarea se extrae del LLM entrenado y se proporciona a diferentes módulos para resolver tareas posteriores. El marco general es simple, efectivo y logra un rendimiento de vanguardia en múltiples benchmarks. También ponemos a disposición públicamente nuestro modelo, los datos generados y la base de código.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.
PDF151December 15, 2024