ChatPaper.aiChatPaper

LLaVA-φ: Effizienter multimodaler Assistent mit kleinem Sprachmodell

LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

January 4, 2024
Autoren: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI

Zusammenfassung

In diesem Artikel stellen wir LLaVA-phi (LLaVA-Phi) vor, einen effizienten multimodalen Assistenten, der die Leistungsfähigkeit des kürzlich weiterentwickelten kleinen Sprachmodells Phi-2 nutzt, um multimodale Dialoge zu ermöglichen. LLaVA-Phi markiert einen bemerkenswerten Fortschritt im Bereich kompakter multimodaler Modelle. Es zeigt, dass selbst kleinere Sprachmodelle mit nur 2,7 Milliarden Parametern effektiv an komplexen Dialogen teilnehmen können, die sowohl textuelle als auch visuelle Elemente integrieren, vorausgesetzt, sie werden mit hochwertigen Korpora trainiert. Unser Modell liefert beachtliche Leistungen auf öffentlich verfügbaren Benchmarks, die visuelles Verständnis, logisches Denken und wissensbasierte Wahrnehmung umfassen. Neben seiner bemerkenswerten Leistung in multimodalen Dialogaufgaben eröffnet unser Modell neue Anwendungsmöglichkeiten in zeitkritischen Umgebungen und Systemen, die Echtzeitinteraktion erfordern, wie beispielsweise verkörperte Agenten. Es unterstreicht das Potenzial kleinerer Sprachmodelle, ein hohes Maß an Verständnis und Interaktion zu erreichen, während gleichzeitig eine größere Ressourceneffizienz gewährleistet wird. Das Projekt ist verfügbar unter {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
PDF184December 15, 2024