ChatPaper.aiChatPaper

TinyGPT-V: Эффективная мультимодальная большая языковая модель на основе компактных архитектур

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

December 28, 2023
Авторы: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI

Аннотация

В эпоху передового мультимодального обучения мультимодальные большие языковые модели (MLLMs), такие как GPT-4V, достигли значительных успехов в объединении языковых и визуальных элементов. Однако закрытый исходный код и значительные вычислительные требования представляют собой серьезные вызовы для их универсального использования и модификаций. Именно здесь на сцену выходят открытые MLLMs, такие как LLaVA и MiniGPT-4, демонстрируя прорывные достижения в различных задачах. Несмотря на эти успехи, проблема вычислительной эффективности остается нерешенной, поскольку такие модели, как LLaVA-v1.5-13B, требуют значительных ресурсов. Решая эти проблемы, мы представляем TinyGPT-V — новую модель, сочетающую впечатляющую производительность с доступной вычислительной мощностью. Она выделяется тем, что для обучения требуется всего 24 ГБ видеопамяти, а для вывода — 8 ГБ видеопамяти или процессор. Основанная на Phi-2, TinyGPT-V объединяет эффективный языковой бэкбон с предобученными визуальными модулями из BLIP-2 или CLIP. 2,8 миллиарда параметров TinyGPT-V могут быть подвергнуты уникальному процессу квантования, что делает модель подходящей для локального развертывания и выполнения задач вывода на устройствах с 8 ГБ памяти. Наша работа способствует дальнейшему развитию проектирования экономически эффективных, производительных и высокоэффективных MLLMs, расширяя их применимость в широком спектре реальных сценариев. Кроме того, в данной статье предложена новая парадигма мультимодальных больших языковых моделей с использованием компактных бэкбонов. Наш код и веса для обучения доступны по адресам: https://github.com/DLYuanGod/TinyGPT-V и https://huggingface.co/Tyrannosaurus/TinyGPT-V соответственно.
English
In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.
PDF316December 15, 2024