ChatPaper.aiChatPaper

LLaVA-φ: Assistente Multi-Modale Efficiente con Modello Linguistico di Piccole Dimensioni

LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

January 4, 2024
Autori: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI

Abstract

In questo articolo, presentiamo LLaVA-phi (LLaVA-Phi), un assistente multimodale efficiente che sfrutta la potenza del recente modello linguistico di piccole dimensioni, Phi-2, per facilitare dialoghi multimodali. LLaVA-Phi rappresenta un progresso significativo nel campo dei modelli multimodali compatti. Dimostra che anche modelli linguistici più piccoli, con appena 2,7 miliardi di parametri, possono impegnarsi efficacemente in dialoghi complessi che integrano elementi testuali e visivi, purché siano addestrati con corpora di alta qualità. Il nostro modello offre prestazioni notevoli su benchmark pubblicamente disponibili che comprendono comprensione visiva, ragionamento e percezione basata sulla conoscenza. Oltre alla sua straordinaria performance nei compiti di dialogo multimodale, il nostro modello apre nuove strade per applicazioni in ambienti sensibili al tempo e sistemi che richiedono interazione in tempo reale, come agenti incarnati. Evidenzia il potenziale dei modelli linguistici più piccoli di raggiungere livelli sofisticati di comprensione e interazione, mantenendo al contempo una maggiore efficienza delle risorse. Il progetto è disponibile all'indirizzo {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
PDF184February 8, 2026