u-LLaVA: Унификация многомодальных задач с помощью крупной языковой модели
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
November 9, 2023
Авторы: Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li
cs.AI
Аннотация
Недавние достижения, такие как LLaVA и Mini-GPT4, успешно интегрировали визуальную информацию в большие языковые модели (LLM), что привело к вдохновляющим результатам и появлению нового поколения мультимодальных LLM, или MLLM. Тем не менее, эти методы сталкиваются с проблемами галлюцинаций и взаимного влияния между задачами. Для решения этих проблем мы предлагаем эффективный и точный подход адаптации к последующим задачам, используя LLM в качестве моста для соединения нескольких экспертных моделей, а именно u-LLaVA. Во-первых, мы интегрируем модуль выравнивания модальностей и многозадачные модули в LLM. Затем мы реорганизуем или перестраиваем многозадачные публичные наборы данных для обеспечения эффективного выравнивания модальностей и следования инструкциям. Наконец, информация, специфичная для задачи, извлекается из обученной LLM и предоставляется различным модулям для решения последующих задач. Общая структура проста, эффективна и демонстрирует передовые результаты на множестве бенчмарков. Мы также публикуем нашу модель, сгенерированные данные и код в открытом доступе.
English
Recent advances such as LLaVA and Mini-GPT4 have successfully integrated
visual information into LLMs, yielding inspiring outcomes and giving rise to a
new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods
struggle with hallucinations and the mutual interference between tasks. To
tackle these problems, we propose an efficient and accurate approach to adapt
to downstream tasks by utilizing LLM as a bridge to connect multiple expert
models, namely u-LLaVA. Firstly, we incorporate the modality alignment module
and multi-task modules into LLM. Then, we reorganize or rebuild multi-type
public datasets to enable efficient modality alignment and instruction
following. Finally, task-specific information is extracted from the trained LLM
and provided to different modules for solving downstream tasks. The overall
framework is simple, effective, and achieves state-of-the-art performance
across multiple benchmarks. We also release our model, the generated data, and
the code base publicly available.