LLaVA-φ: Asistente Multimodal Eficiente con un Modelo de Lenguaje Pequeño
LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model
January 4, 2024
Autores: Yichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang
cs.AI
Resumen
En este artículo, presentamos LLaVA-phi (LLaVA-Phi), un asistente multimodal eficiente que aprovecha el poder del reciente modelo de lenguaje pequeño avanzado, Phi-2, para facilitar diálogos multimodales. LLaVA-Phi representa un avance notable en el ámbito de los modelos multimodales compactos. Demuestra que incluso modelos de lenguaje más pequeños, con tan solo 2.7 mil millones de parámetros, pueden participar efectivamente en diálogos complejos que integran elementos tanto textuales como visuales, siempre que se entrenen con corpus de alta calidad. Nuestro modelo ofrece un rendimiento destacado en benchmarks públicos que abarcan comprensión visual, razonamiento y percepción basada en conocimiento. Más allá de su notable desempeño en tareas de diálogo multimodal, nuestro modelo abre nuevas vías para aplicaciones en entornos sensibles al tiempo y sistemas que requieren interacción en tiempo real, como agentes corporizados. Destaca el potencial de los modelos de lenguaje más pequeños para alcanzar niveles sofisticados de comprensión e interacción, manteniendo una mayor eficiencia de recursos. El proyecto está disponible en {https://github.com/zhuyiche/llava-phi}.
English
In this paper, we introduce LLaVA-phi (LLaVA-Phi), an efficient
multi-modal assistant that harnesses the power of the recently advanced small
language model, Phi-2, to facilitate multi-modal dialogues. LLaVA-Phi marks a
notable advancement in the realm of compact multi-modal models. It demonstrates
that even smaller language models, with as few as 2.7B parameters, can
effectively engage in intricate dialogues that integrate both textual and
visual elements, provided they are trained with high-quality corpora. Our model
delivers commendable performance on publicly available benchmarks that
encompass visual comprehension, reasoning, and knowledge-based perception.
Beyond its remarkable performance in multi-modal dialogue tasks, our model
opens new avenues for applications in time-sensitive environments and systems
that require real-time interaction, such as embodied agents. It highlights the
potential of smaller language models to achieve sophisticated levels of
understanding and interaction, while maintaining greater resource
efficiency.The project is available at {https://github.com/zhuyiche/llava-phi}.