LLaVA-φ: Эффективный мультимодальный ассистент с компактной языковой моделью
LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model
January 4, 2024
Авторы: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI
Аннотация
В данной статье мы представляем LLaVA-phi (LLaVA-Phi), эффективного мультимодального помощника, который использует возможности недавно разработанной компактной языковой модели Phi-2 для обеспечения мультимодальных диалогов. LLaVA-Phi представляет собой значительный прогресс в области компактных мультимодальных моделей. Она демонстрирует, что даже небольшие языковые модели, содержащие всего 2,7 миллиарда параметров, могут эффективно участвовать в сложных диалогах, интегрирующих как текстовые, так и визуальные элементы, при условии их обучения на высококачественных корпусах. Наша модель демонстрирует впечатляющие результаты на общедоступных бенчмарках, охватывающих визуальное понимание, логическое мышление и восприятие на основе знаний. Помимо выдающейся производительности в задачах мультимодальных диалогов, наша модель открывает новые возможности для применения в средах с ограниченным временем и системах, требующих взаимодействия в реальном времени, таких как воплощенные агенты. Она подчеркивает потенциал небольших языковых моделей для достижения высокого уровня понимания и взаимодействия при сохранении высокой ресурсной эффективности. Проект доступен по адресу {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient
multi-modal assistant that harnesses the power of the recently advanced small
language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a
notable advancement in the realm of compact multi-modal models. It demonstrates
that even smaller language models, with as few as 2.7B parameters, can
effectively engage in intricate dialogues that integrate both textual and
visual elements, provided they are trained with high-quality corpora. Our model
delivers commendable performance on publicly available benchmarks that
encompass visual comprehension, reasoning, and knowledge-based perception.
Beyond its remarkable performance in multi-modal dialogue tasks, our model
opens new avenues for applications in time-sensitive environments and systems
that require real-time interaction, such as embodied agents. It highlights the
potential of smaller language models to achieve sophisticated levels of
understanding and interaction, while maintaining greater resource
efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.