ChatPaper.aiChatPaper

LLaVA-φ : Assistant Multimodal Efficace avec un Petit Modèle de Langage

LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

January 4, 2024
Auteurs: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI

Résumé

Dans cet article, nous présentons LLaVA-phi (LLaVA-Phi), un assistant multimodal efficace qui exploite la puissance du petit modèle de langage récemment amélioré, Phi-2, pour faciliter les dialogues multimodaux. LLaVA-Phi représente une avancée notable dans le domaine des modèles multimodaux compacts. Il démontre que même des modèles de langage plus petits, avec seulement 2,7 milliards de paramètres, peuvent participer efficacement à des dialogues complexes intégrant à la fois des éléments textuels et visuels, à condition qu'ils soient entraînés avec des corpus de haute qualité. Notre modèle offre une performance remarquable sur des benchmarks publics couvrant la compréhension visuelle, le raisonnement et la perception basée sur les connaissances. Au-delà de ses performances exceptionnelles dans les tâches de dialogue multimodal, notre modèle ouvre de nouvelles perspectives pour des applications dans des environnements sensibles au temps et des systèmes nécessitant une interaction en temps réel, tels que les agents incarnés. Il met en lumière le potentiel des modèles de langage plus petits pour atteindre des niveaux sophistiqués de compréhension et d'interaction, tout en maintenant une meilleure efficacité des ressources. Le projet est disponible à l'adresse suivante : {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
PDF184December 15, 2024