LLaVaOLMoBitnet1B: Il modello linguistico ternario diventa multimodale!
LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!
August 23, 2024
Autori: Jainaveen Sundaram, Ravishankar Iyer
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) hanno registrato progressi significativi nell'ultimo anno, dimostrando prestazioni impressionanti in vari compiti. Tuttavia, per democratizzare veramente l'IA, i modelli devono mostrare capacità robuste ed essere in grado di funzionare in modo efficiente su risorse computazionali limitate, accessibili alla maggior parte. In questa direzione, presentiamo LLaVaOLMoBitnet1B - il primo Modello Linguistico Multimodale Ternario in grado di accettare input di Immagini+Testo per produrre risposte testuali coerenti. Il modello è completamente open-source, accompagnato da script di addestramento per incentivare ulteriori ricerche in questo ambito. Questo rapporto tecnico illustra il processo di addestramento, i dettagli di valutazione, le sfide associate ai modelli ternari e le opportunità future. Link al modello: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
English
Multimodal Large Language Models (MM-LLMs) have seen significant advancements
in the last year, demonstrating impressive performance across tasks. However,
to truly democratize AI, models must exhibit strong capabilities and be able to
run efficiently on small compute footprints accessible by most. Part of this
quest, we introduce LLaVaOLMoBitnet1B - the first Ternary Multimodal LLM
capable of accepting Image(s)+Text inputs to produce coherent textual
responses. The model is fully open-sourced along with training scripts to
encourage further research in this space. This accompanying technical report
highlights the training process, evaluation details, challenges associated with
ternary models and future opportunities. Link to the model:
https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B