ChatPaper.aiChatPaper

LLaVA-φ: Efficiënte Multi-Modale Assistent met Klein Taalmodel

LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

January 4, 2024
Auteurs: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI

Samenvatting

In dit artikel introduceren we LLaVA-phi (LLaVA-Phi), een efficiënte multimodale assistent die gebruikmaakt van de kracht van het recentelijk geavanceerde kleine taalmodel, Phi-2, om multimodale dialogen te faciliteren. LLaVA-Phi markeert een opmerkelijke vooruitgang in het domein van compacte multimodale modellen. Het toont aan dat zelfs kleinere taalmodellen, met slechts 2,7B parameters, effectief kunnen deelnemen aan complexe dialogen die zowel tekstuele als visuele elementen integreren, mits ze getraind zijn met hoogwaardige corpora. Ons model levert lovenswaardige prestaties op publiek beschikbare benchmarks die visueel begrip, redeneren en kennisgebaseerde perceptie omvatten. Naast zijn opmerkelijke prestaties in multimodale dialoogtaken, opent ons model nieuwe mogelijkheden voor toepassingen in tijdgevoelige omgevingen en systemen die real-time interactie vereisen, zoals belichaamde agenten. Het benadrukt het potentieel van kleinere taalmodellen om geavanceerde niveaus van begrip en interactie te bereiken, terwijl ze een grotere resource-efficiëntie behouden. Het project is beschikbaar op {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
PDF184February 8, 2026