LLaVaOLMoBitnet1B: Троичная LLM становится мультимодальной!
LLaVaOLMoBitnet1B: Ternary LLM goes Multimodal!
August 23, 2024
Авторы: Jainaveen Sundaram, Ravishankar Iyer
cs.AI
Аннотация
Многомодельные крупные языковые модели (MM-LLM) продемонстрировали значительные успехи за последний год, проявив впечатляющую производительность в различных задачах. Однако для истинной демократизации искусственного интеллекта модели должны обладать высокими возможностями и способностью эффективно работать на небольших вычислительных устройствах, доступных для большинства. В рамках этой задачи мы представляем LLaVaOLMoBitnet1B - первую тернарную многомодельную языковую модель, способную принимать входные данные изображение(я)+текст для генерации согласованных текстовых ответов. Модель полностью открыта для общего доступа, вместе с скриптами обучения, чтобы поощрить дальнейшие исследования в этой области. Настоящий технический отчет подробно описывает процесс обучения, детали оценки, вызовы, связанные с тернарными моделями, а также перспективы для будущих исследований. Ссылка на модель: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
English
Multimodal Large Language Models (MM-LLMs) have seen significant advancements
in the last year, demonstrating impressive performance across tasks. However,
to truly democratize AI, models must exhibit strong capabilities and be able to
run efficiently on small compute footprints accessible by most. Part of this
quest, we introduce LLaVaOLMoBitnet1B - the first Ternary Multimodal LLM
capable of accepting Image(s)+Text inputs to produce coherent textual
responses. The model is fully open-sourced along with training scripts to
encourage further research in this space. This accompanying technical report
highlights the training process, evaluation details, challenges associated with
ternary models and future opportunities. Link to the model:
https://huggingface.co/IntelLabs/LlavaOLMoBitnet1BSummary
AI-Generated Summary