LLaVaOLMoBitnet1B: Ternäres LLM wird multimodal!

papers.abstract

Multimodale Large Language Models (MM-LLMs) haben im letzten Jahr signifikante Fortschritte verzeichnet und beeindruckende Leistungen über verschiedene Aufgaben hinweg gezeigt. Um KI wirklich zu demokratisieren, müssen Modelle jedoch starke Fähigkeiten aufweisen und effizient auf kleinen Rechenressourcen laufen können, die von den meisten zugänglich sind. Im Rahmen dieses Vorhabens stellen wir LLaVaOLMoBitnet1B vor - das erste Ternäre Multimodale LLM, das in der Lage ist, Bild(er)+Text-Eingaben zu akzeptieren, um kohärente textuelle Antworten zu erzeugen. Das Modell ist vollständig Open Source zusammen mit Trainings-Skripten verfügbar, um weitere Forschung in diesem Bereich zu fördern. Dieser begleitende technische Bericht hebt den Trainingsprozess, Evaluierungsdetails, Herausforderungen im Zusammenhang mit ternären Modellen und zukünftige Möglichkeiten hervor. Link zum Modell: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

English

Multimodal Large Language Models (MM-LLMs) have seen significant advancements in the last year, demonstrating impressive performance across tasks. However, to truly democratize AI, models must exhibit strong capabilities and be able to run efficiently on small compute footprints accessible by most. Part of this quest, we introduce LLaVaOLMoBitnet1B - the first Ternary Multimodal LLM capable of accepting Image(s)+Text inputs to produce coherent textual responses. The model is fully open-sourced along with training scripts to encourage further research in this space. This accompanying technical report highlights the training process, evaluation details, challenges associated with ternary models and future opportunities. Link to the model: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

LLaVaOLMoBitnet1B: Ternäres LLM wird multimodal!

LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!

papers.abstract

Support