ChatPaper.aiChatPaper

LLaVA-φ: Asistente Multimodal Eficiente con un Modelo de Lenguaje Pequeño

LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

January 4, 2024
Autores: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI

Resumen

En este artículo, presentamos LLaVA-phi (LLaVA-Phi), un asistente multimodal eficiente que aprovecha el poder del reciente modelo de lenguaje pequeño avanzado, Phi-2, para facilitar diálogos multimodales. LLaVA-Phi representa un avance notable en el ámbito de los modelos multimodales compactos. Demuestra que incluso modelos de lenguaje más pequeños, con tan solo 2.7 mil millones de parámetros, pueden participar efectivamente en diálogos complejos que integran elementos tanto textuales como visuales, siempre que se entrenen con corpus de alta calidad. Nuestro modelo ofrece un rendimiento destacado en benchmarks públicos que abarcan comprensión visual, razonamiento y percepción basada en conocimiento. Más allá de su notable desempeño en tareas de diálogo multimodal, nuestro modelo abre nuevas vías para aplicaciones en entornos sensibles al tiempo y sistemas que requieren interacción en tiempo real, como agentes corporizados. Destaca el potencial de los modelos de lenguaje más pequeños para alcanzar niveles sofisticados de comprensión e interacción, manteniendo una mayor eficiencia de recursos. El proyecto está disponible en {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient multi-modal assistant that harnesses the power of the recently advanced small language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a notable advancement in the realm of compact multi-modal models. It demonstrates that even smaller language models, with as few as 2.7B parameters, can effectively engage in intricate dialogues that integrate both textual and visual elements, provided they are trained with high-quality corpora. Our model delivers commendable performance on publicly available benchmarks that encompass visual comprehension, reasoning, and knowledge-based perception. Beyond its remarkable performance in multi-modal dialogue tasks, our model opens new avenues for applications in time-sensitive environments and systems that require real-time interaction, such as embodied agents. It highlights the potential of smaller language models to achieve sophisticated levels of understanding and interaction, while maintaining greater resource efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.
PDF184December 15, 2024