TinyGPT-V : Modèle de langage multimodal efficace grâce à des architectures légères

papers.abstract

À l'ère de l'apprentissage multimodal avancé, les modèles de langage multimodal de grande envergure (MLLMs) tels que GPT-4V ont réalisé des progrès remarquables dans le rapprochement des éléments linguistiques et visuels. Cependant, leur nature propriétaire et leurs exigences computationnelles considérables posent des défis notables pour une utilisation et des modifications universelles. C'est là qu'interviennent les MLLMs open-source comme LLaVA et MiniGPT-4, qui présentent des réalisations révolutionnaires dans diverses tâches. Malgré ces accomplissements, l'efficacité computationnelle reste un problème non résolu, car ces modèles, comme LLaVA-v1.5-13B, nécessitent des ressources substantielles. Pour répondre à ces problèmes, nous introduisons TinyGPT-V, un modèle de nouvelle génération alliant des performances impressionnantes à une capacité computationnelle courante. Il se distingue en nécessitant seulement un GPU de 24 Go pour l'entraînement et un GPU de 8 Go ou un CPU pour l'inférence. Basé sur Phi-2, TinyGPT-V associe une architecture linguistique efficace à des modules de vision pré-entraînés issus de BLIP-2 ou CLIP. Les 2,8 milliards de paramètres de TinyGPT-V peuvent subir un processus de quantification unique, adapté au déploiement local et aux tâches d'inférence sur divers appareils de 8 Go. Notre travail favorise de nouveaux développements dans la conception de MLLMs économiques, efficaces et performants, élargissant leur applicabilité dans un large éventail de scénarios réels. De plus, cet article propose un nouveau paradigme de modèle de langage multimodal de grande envergure via des architectures légères. Notre code et nos poids d'entraînement sont disponibles à l'adresse suivante : https://github.com/DLYuanGod/TinyGPT-V et https://huggingface.co/Tyrannosaurus/TinyGPT-V respectivement.

English

In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.

TinyGPT-V : Modèle de langage multimodal efficace grâce à des architectures légères

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

papers.abstract

Support