LLaVA-φ: Effizienter multimodaler Assistent mit kleinem Sprachmodell
LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model
January 4, 2024
Autoren: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI
Zusammenfassung
In diesem Artikel stellen wir LLaVA-phi (LLaVA-Phi) vor, einen effizienten multimodalen Assistenten, der die Leistungsfähigkeit des kürzlich weiterentwickelten kleinen Sprachmodells Phi-2 nutzt, um multimodale Dialoge zu ermöglichen. LLaVA-Phi markiert einen bemerkenswerten Fortschritt im Bereich kompakter multimodaler Modelle. Es zeigt, dass selbst kleinere Sprachmodelle mit nur 2,7 Milliarden Parametern effektiv an komplexen Dialogen teilnehmen können, die sowohl textuelle als auch visuelle Elemente integrieren, vorausgesetzt, sie werden mit hochwertigen Korpora trainiert. Unser Modell liefert beachtliche Leistungen auf öffentlich verfügbaren Benchmarks, die visuelles Verständnis, logisches Denken und wissensbasierte Wahrnehmung umfassen. Neben seiner bemerkenswerten Leistung in multimodalen Dialogaufgaben eröffnet unser Modell neue Anwendungsmöglichkeiten in zeitkritischen Umgebungen und Systemen, die Echtzeitinteraktion erfordern, wie beispielsweise verkörperte Agenten. Es unterstreicht das Potenzial kleinerer Sprachmodelle, ein hohes Maß an Verständnis und Interaktion zu erreichen, während gleichzeitig eine größere Ressourceneffizienz gewährleistet wird. Das Projekt ist verfügbar unter {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient
multi-modal assistant that harnesses the power of the recently advanced small
language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a
notable advancement in the realm of compact multi-modal models. It demonstrates
that even smaller language models, with as few as 2.7B parameters, can
effectively engage in intricate dialogues that integrate both textual and
visual elements, provided they are trained with high-quality corpora. Our model
delivers commendable performance on publicly available benchmarks that
encompass visual comprehension, reasoning, and knowledge-based perception.
Beyond its remarkable performance in multi-modal dialogue tasks, our model
opens new avenues for applications in time-sensitive environments and systems
that require real-time interaction, such as embodied agents. It highlights the
potential of smaller language models to achieve sophisticated levels of
understanding and interaction, while maintaining greater resource
efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.