LLaVaOLMoBitnet1B: Ternäres LLM wird multimodal!
LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!
August 23, 2024
Autoren: Jainaveen Sundaram, Ravishankar Iyer
cs.AI
Zusammenfassung
Multimodale Large Language Models (MM-LLMs) haben im letzten Jahr signifikante Fortschritte verzeichnet und beeindruckende Leistungen über verschiedene Aufgaben hinweg gezeigt. Um KI wirklich zu demokratisieren, müssen Modelle jedoch starke Fähigkeiten aufweisen und effizient auf kleinen Rechenressourcen laufen können, die von den meisten zugänglich sind. Im Rahmen dieses Vorhabens stellen wir LLaVaOLMoBitnet1B vor - das erste Ternäre Multimodale LLM, das in der Lage ist, Bild(er)+Text-Eingaben zu akzeptieren, um kohärente textuelle Antworten zu erzeugen. Das Modell ist vollständig Open Source zusammen mit Trainings-Skripten verfügbar, um weitere Forschung in diesem Bereich zu fördern. Dieser begleitende technische Bericht hebt den Trainingsprozess, Evaluierungsdetails, Herausforderungen im Zusammenhang mit ternären Modellen und zukünftige Möglichkeiten hervor. Link zum Modell: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
English
Multimodal Large Language Models (MM-LLMs) have seen significant advancements
in the last year, demonstrating impressive performance across tasks. However,
to truly democratize AI, models must exhibit strong capabilities and be able to
run efficiently on small compute footprints accessible by most. Part of this
quest, we introduce LLaVaOLMoBitnet1B - the first Ternary Multimodal LLM
capable of accepting Image(s)+Text inputs to produce coherent textual
responses. The model is fully open-sourced along with training scripts to
encourage further research in this space. This accompanying technical report
highlights the training process, evaluation details, challenges associated with
ternary models and future opportunities. Link to the model:
https://huggingface.co/IntelLabs/LlavaOLMoBitnet1BSummary
AI-Generated Summary