ChatPaper.aiChatPaper

TinyGPT-V: Modelo de Linguagem Multimodal Eficiente com Arquiteturas Compactas

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

December 28, 2023
Autores: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI

Resumo

Na era do aprendizado multimodal avançado, os modelos de linguagem multimodal de grande escala (MLLMs), como o GPT-4V, têm feito avanços notáveis na integração de elementos linguísticos e visuais. No entanto, a natureza de código fechado e a demanda computacional considerável apresentam desafios significativos para o uso universal e modificações. É aqui que entram os MLLMs de código aberto, como LLaVA e MiniGPT-4, que apresentam conquistas revolucionárias em diversas tarefas. Apesar desses feitos, a eficiência computacional continua sendo um problema não resolvido, já que esses modelos, como o LLaVA-v1.5-13B, exigem recursos substanciais. Para abordar essas questões, apresentamos o TinyGPT-V, um modelo de nova geração que combina desempenho impressionante com capacidade computacional acessível. Ele se destaca por exigir apenas uma GPU de 24G para treinamento e uma GPU de 8G ou CPU para inferência. Construído sobre o Phi-2, o TinyGPT-V acopla uma base linguística eficaz com módulos visuais pré-treinados do BLIP-2 ou CLIP. Os 2,8 bilhões de parâmetros do TinyGPT-V podem passar por um processo único de quantização, adequado para implantação local e tarefas de inferência em diversos dispositivos com 8G. Nosso trabalho promove novos desenvolvimentos na criação de MLLMs econômicos, eficientes e de alto desempenho, ampliando sua aplicabilidade em uma ampla gama de cenários do mundo real. Além disso, este artigo propõe um novo paradigma de Modelo de Linguagem Multimodal de Grande Escala por meio de bases pequenas. Nosso código e pesos de treinamento estão disponíveis em: https://github.com/DLYuanGod/TinyGPT-V e https://huggingface.co/Tyrannosaurus/TinyGPT-V, respectivamente.
English
In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.
PDF317February 7, 2026