TinyGPT-V: Efficiënt Multimodaal Taalmodel met Kleine Backbones
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
December 28, 2023
Auteurs: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI
Samenvatting
In het tijdperk van geavanceerd multimodaal leren hebben multimodale grote taalmodellen (MLLMs) zoals GPT-4V opmerkelijke vooruitgang geboekt in het overbruggen van taal en visuele elementen. De gesloten aard van deze modellen en de aanzienlijke rekenkracht die ze vereisen, vormen echter aanzienlijke uitdagingen voor universeel gebruik en aanpassingen. Hier komen open-source MLLMs zoals LLaVA en MiniGPT-4 in beeld, die baanbrekende prestaties leveren op diverse taken. Ondanks deze prestaties blijft rekenkundige efficiëntie een onopgelost probleem, aangezien deze modellen, zoals LLaVA-v1.5-13B, aanzienlijke bronnen vereisen. Om deze problemen aan te pakken, introduceren we TinyGPT-V, een nieuw model dat indrukwekkende prestaties combineert met alledaagse rekenkracht. Het onderscheidt zich door slechts een 24G GPU te vereisen voor training en een 8G GPU of CPU voor inferentie. Gebaseerd op Phi-2, combineert TinyGPT-V een effectieve taalbackbone met vooraf getrainde visuele modules van BLIP-2 of CLIP. De 2,8B parameters van TinyGPT-V kunnen een uniek kwantiseringsproces ondergaan, geschikt voor lokale implementatie en inferentietaken op diverse apparaten met 8G. Ons werk bevordert verdere ontwikkelingen in het ontwerpen van kosteneffectieve, efficiënte en hoogpresterende MLLMs, waardoor hun toepasbaarheid in een breed scala aan real-world scenario's wordt uitgebreid. Bovendien stelt dit paper een nieuw paradigma voor van Multimodale Grote Taalmodellen via kleine backbones. Onze code en trainingsgewichten zijn beschikbaar op:
https://github.com/DLYuanGod/TinyGPT-V en
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectievelijk.
English
In the era of advanced multimodel learning, multimodal large language models
(MLLMs) such as GPT-4V have made remarkable strides towards bridging language
and visual elements. However, the closed-source nature and considerable
computational demand present notable challenges for universal usage and
modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come
in, presenting groundbreaking achievements across tasks. Despite these
accomplishments, computational efficiency remains an unresolved issue, as these
models, like LLaVA-v1.5-13B, require substantial resources. Addressing these
issues, we introduce TinyGPT-V, a new-wave model marrying impressive
performance with commonplace computational capacity. It stands out by requiring
merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon
Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision
modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique
quantisation process, suitable for local deployment and inference tasks on 8G
various devices. Our work fosters further developments for designing
cost-effective, efficient, and high-performing MLLMs, expanding their
applicability in a broad array of real-world scenarios. Furthermore this paper
proposed a new paradigm of Multimodal Large Language Model via small backbones.
Our code and training weights are placed at:
https://github.com/DLYuanGod/TinyGPT-V and
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.