LLaVA-φ: Assistente Multimodal Eficiente com Modelo de Linguagem Pequeno
LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model
January 4, 2024
Autores: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI
Resumo
Neste artigo, apresentamos o LLaVA-phi (LLaVA-Phi), um assistente multimodal eficiente que aproveita o poder do recente modelo de linguagem pequeno, Phi-2, para facilitar diálogos multimodais. O LLaVA-Phi representa um avanço significativo no domínio dos modelos multimodais compactos. Ele demonstra que mesmo modelos de linguagem menores, com apenas 2,7 bilhões de parâmetros, podem se envolver efetivamente em diálogos complexos que integram elementos textuais e visuais, desde que sejam treinados com corpora de alta qualidade. Nosso modelo apresenta um desempenho notável em benchmarks publicamente disponíveis que abrangem compreensão visual, raciocínio e percepção baseada em conhecimento. Além de seu desempenho impressionante em tarefas de diálogo multimodal, nosso modelo abre novas possibilidades para aplicações em ambientes sensíveis ao tempo e sistemas que exigem interação em tempo real, como agentes incorporados. Ele destaca o potencial dos modelos de linguagem menores para alcançar níveis sofisticados de compreensão e interação, mantendo uma maior eficiência de recursos. O projeto está disponível em {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient
multi-modal assistant that harnesses the power of the recently advanced small
language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a
notable advancement in the realm of compact multi-modal models. It demonstrates
that even smaller language models, with as few as 2.7B parameters, can
effectively engage in intricate dialogues that integrate both textual and
visual elements, provided they are trained with high-quality corpora. Our model
delivers commendable performance on publicly available benchmarks that
encompass visual comprehension, reasoning, and knowledge-based perception.
Beyond its remarkable performance in multi-modal dialogue tasks, our model
opens new avenues for applications in time-sensitive environments and systems
that require real-time interaction, such as embodied agents. It highlights the
potential of smaller language models to achieve sophisticated levels of
understanding and interaction, while maintaining greater resource
efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.