TinyGPT-V : Modèle de langage multimodal efficace grâce à des architectures légères
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
December 28, 2023
papers.authors: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI
papers.abstract
À l'ère de l'apprentissage multimodal avancé, les modèles de langage multimodal de grande envergure (MLLMs) tels que GPT-4V ont réalisé des progrès remarquables dans le rapprochement des éléments linguistiques et visuels. Cependant, leur nature propriétaire et leurs exigences computationnelles considérables posent des défis notables pour une utilisation et des modifications universelles. C'est là qu'interviennent les MLLMs open-source comme LLaVA et MiniGPT-4, qui présentent des réalisations révolutionnaires dans diverses tâches. Malgré ces accomplissements, l'efficacité computationnelle reste un problème non résolu, car ces modèles, comme LLaVA-v1.5-13B, nécessitent des ressources substantielles. Pour répondre à ces problèmes, nous introduisons TinyGPT-V, un modèle de nouvelle génération alliant des performances impressionnantes à une capacité computationnelle courante. Il se distingue en nécessitant seulement un GPU de 24 Go pour l'entraînement et un GPU de 8 Go ou un CPU pour l'inférence. Basé sur Phi-2, TinyGPT-V associe une architecture linguistique efficace à des modules de vision pré-entraînés issus de BLIP-2 ou CLIP. Les 2,8 milliards de paramètres de TinyGPT-V peuvent subir un processus de quantification unique, adapté au déploiement local et aux tâches d'inférence sur divers appareils de 8 Go. Notre travail favorise de nouveaux développements dans la conception de MLLMs économiques, efficaces et performants, élargissant leur applicabilité dans un large éventail de scénarios réels. De plus, cet article propose un nouveau paradigme de modèle de langage multimodal de grande envergure via des architectures légères. Notre code et nos poids d'entraînement sont disponibles à l'adresse suivante : https://github.com/DLYuanGod/TinyGPT-V et https://huggingface.co/Tyrannosaurus/TinyGPT-V respectivement.
English
In the era of advanced multimodel learning, multimodal large language models
(MLLMs) such as GPT-4V have made remarkable strides towards bridging language
and visual elements. However, the closed-source nature and considerable
computational demand present notable challenges for universal usage and
modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come
in, presenting groundbreaking achievements across tasks. Despite these
accomplishments, computational efficiency remains an unresolved issue, as these
models, like LLaVA-v1.5-13B, require substantial resources. Addressing these
issues, we introduce TinyGPT-V, a new-wave model marrying impressive
performance with commonplace computational capacity. It stands out by requiring
merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon
Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision
modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique
quantisation process, suitable for local deployment and inference tasks on 8G
various devices. Our work fosters further developments for designing
cost-effective, efficient, and high-performing MLLMs, expanding their
applicability in a broad array of real-world scenarios. Furthermore this paper
proposed a new paradigm of Multimodal Large Language Model via small backbones.
Our code and training weights are placed at:
https://github.com/DLYuanGod/TinyGPT-V and
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.