ChatPaper.aiChatPaper

TinyGPT-V: Modelo de Lenguaje Multimodal Eficiente mediante Arquitecturas Pequeñas

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

December 28, 2023
Autores: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI

Resumen

En la era del aprendizaje multimodal avanzado, los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) como GPT-4V han logrado avances notables en la integración de elementos lingüísticos y visuales. Sin embargo, su naturaleza de código cerrado y su considerable demanda computacional presentan desafíos significativos para su uso universal y modificación. Aquí es donde entran en juego los MLLMs de código abierto como LLaVA y MiniGPT-4, que han logrado avances innovadores en diversas tareas. A pesar de estos logros, la eficiencia computacional sigue siendo un problema sin resolver, ya que estos modelos, como LLaVA-v1.5-13B, requieren recursos sustanciales. Para abordar estos problemas, presentamos TinyGPT-V, un modelo de nueva generación que combina un rendimiento impresionante con una capacidad computacional accesible. Destaca por requerir solo una GPU de 24G para el entrenamiento y una GPU de 8G o una CPU para la inferencia. Basado en Phi-2, TinyGPT-V integra un núcleo lingüístico eficaz con módulos de visión preentrenados de BLIP-2 o CLIP. Los 2.8 mil millones de parámetros de TinyGPT-V pueden someterse a un proceso único de cuantización, adecuado para su implementación local y tareas de inferencia en diversos dispositivos con 8G. Nuestro trabajo fomenta avances adicionales en el diseño de MLLMs rentables, eficientes y de alto rendimiento, ampliando su aplicabilidad en una amplia gama de escenarios del mundo real. Además, este artículo propone un nuevo paradigma de Modelos de Lenguaje Multimodal de Gran Escala mediante núcleos pequeños. Nuestro código y pesos de entrenamiento están disponibles en: https://github.com/DLYuanGod/TinyGPT-V y https://huggingface.co/Tyrannosaurus/TinyGPT-V, respectivamente.
English
In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.
PDF316December 15, 2024