TinyGPT-V: Эффективная мультимодальная большая языковая модель на основе компактных архитектур
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
December 28, 2023
Авторы: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI
Аннотация
В эпоху передового мультимодального обучения мультимодальные большие языковые модели (MLLMs), такие как GPT-4V, достигли значительных успехов в объединении языковых и визуальных элементов. Однако закрытый исходный код и значительные вычислительные требования представляют собой серьезные вызовы для их универсального использования и модификаций. Именно здесь на сцену выходят открытые MLLMs, такие как LLaVA и MiniGPT-4, демонстрируя прорывные достижения в различных задачах. Несмотря на эти успехи, проблема вычислительной эффективности остается нерешенной, поскольку такие модели, как LLaVA-v1.5-13B, требуют значительных ресурсов. Решая эти проблемы, мы представляем TinyGPT-V — новую модель, сочетающую впечатляющую производительность с доступной вычислительной мощностью. Она выделяется тем, что для обучения требуется всего 24 ГБ видеопамяти, а для вывода — 8 ГБ видеопамяти или процессор. Основанная на Phi-2, TinyGPT-V объединяет эффективный языковой бэкбон с предобученными визуальными модулями из BLIP-2 или CLIP. 2,8 миллиарда параметров TinyGPT-V могут быть подвергнуты уникальному процессу квантования, что делает модель подходящей для локального развертывания и выполнения задач вывода на устройствах с 8 ГБ памяти. Наша работа способствует дальнейшему развитию проектирования экономически эффективных, производительных и высокоэффективных MLLMs, расширяя их применимость в широком спектре реальных сценариев. Кроме того, в данной статье предложена новая парадигма мультимодальных больших языковых моделей с использованием компактных бэкбонов. Наш код и веса для обучения доступны по адресам:
https://github.com/DLYuanGod/TinyGPT-V и
https://huggingface.co/Tyrannosaurus/TinyGPT-V соответственно.
English
In the era of advanced multimodel learning, multimodal large language models
(MLLMs) such as GPT-4V have made remarkable strides towards bridging language
and visual elements. However, the closed-source nature and considerable
computational demand present notable challenges for universal usage and
modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come
in, presenting groundbreaking achievements across tasks. Despite these
accomplishments, computational efficiency remains an unresolved issue, as these
models, like LLaVA-v1.5-13B, require substantial resources. Addressing these
issues, we introduce TinyGPT-V, a new-wave model marrying impressive
performance with commonplace computational capacity. It stands out by requiring
merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon
Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision
modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique
quantisation process, suitable for local deployment and inference tasks on 8G
various devices. Our work fosters further developments for designing
cost-effective, efficient, and high-performing MLLMs, expanding their
applicability in a broad array of real-world scenarios. Furthermore this paper
proposed a new paradigm of Multimodal Large Language Model via small backbones.
Our code and training weights are placed at:
https://github.com/DLYuanGod/TinyGPT-V and
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.