ChatPaper.aiChatPaper

Pequeno Modelo de Linguagem Encontra Vocabulário Visual Reforçado

Small Language Model Meets with Reinforced Vision Vocabulary

January 23, 2024
Autores: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, En Yu, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI

Resumo

Jogar com Grandes Modelos de Linguagem Visual (LVLMs) em 2023 está na moda na comunidade de IA. No entanto, o número relativamente grande de parâmetros (mais de 7B) dos LVLMs populares torna difícil o treinamento e a implantação em GPUs de consumo, desencorajando muitos pesquisadores com recursos limitados. Imagine como seria legal experimentar todos os recursos dos LVLMs atuais em uma antiga GTX1080ti (nossa única placa de vídeo). Assim, apresentamos o Vary-toy neste relatório, uma versão compacta do Vary junto com o Qwen-1.8B como o modelo de linguagem "grande" base. No Vary-toy, introduzimos um vocabulário visual aprimorado, permitindo que o modelo não apenas possua todos os recursos do Vary, mas também adquira mais generalidade. Especificamente, substituímos amostras negativas de imagens naturais por dados de amostras positivas impulsionados por detecção de objetos no procedimento de geração do vocabulário visual, utilizando mais suficientemente a capacidade da rede de vocabulário e permitindo que ela codifique eficientemente informações visuais correspondentes a objetos naturais. Nos experimentos, o Vary-toy pode alcançar 65,6% ANLS no DocVQA, 59,1% de precisão no ChartQA, 88,1% de precisão no RefCOCO e 29% no MMVet. O código estará publicamente disponível na página inicial.
English
Playing Large Vision Language Models (LVLMs) in 2023 is trendy among the AI community. However, the relatively large number of parameters (more than 7B) of popular LVLMs makes it difficult to train and deploy on consumer GPUs, discouraging many researchers with limited resources. Imagine how cool it would be to experience all the features of current LVLMs on an old GTX1080ti (our only game card). Accordingly, we present Vary-toy in this report, a small-size Vary along with Qwen-1.8B as the base ``large'' language model. In Vary-toy, we introduce an improved vision vocabulary, allowing the model to not only possess all features of Vary but also gather more generality. Specifically, we replace negative samples of natural images with positive sample data driven by object detection in the procedure of generating vision vocabulary, more sufficiently utilizing the capacity of the vocabulary network and enabling it to efficiently encode visual information corresponding to natural objects. For experiments, Vary-toy can achieve 65.6% ANLS on DocVQA, 59.1% accuracy on ChartQA, 88.1% accuracy on RefCOCO, and 29% on MMVet. The code will be publicly available on the homepage.
PDF322February 8, 2026