Vary: Expandindo o Vocabulário Visual para Modelos de Visão e Linguagem em Grande Escala

Resumo

Os modernos Modelos de Grande Escala de Visão e Linguagem (LVLMs) utilizam o mesmo vocabulário visual -- CLIP, que pode cobrir a maioria das tarefas visuais comuns. No entanto, para algumas tarefas visuais especiais que exigem percepção visual densa e refinada, como OCR em nível de documento ou compreensão de gráficos, especialmente em cenários não ingleses, o vocabulário no estilo CLIP pode enfrentar baixa eficiência na tokenização do conhecimento visual e até mesmo sofrer com problemas de termos fora do vocabulário. Diante disso, propomos o Vary, um método eficiente e eficaz para ampliar o vocabulário visual dos LVLMs. Os procedimentos do Vary são naturalmente divididos em duas etapas: a geração e a integração de um novo vocabulário visual. Na primeira fase, projetamos uma rede de vocabulário junto com um pequeno transformador apenas de decodificação para produzir o vocabulário desejado por meio de autoregressão. Em seguida, ampliamos o vocabulário visual original ao mesclar o novo com o original (CLIP), permitindo que os LVLMs possam rapidamente adquirir novos recursos. Em comparação com os populares BLIP-2, MiniGPT4 e LLaVA, o Vary consegue manter suas capacidades originais enquanto desfruta de uma capacidade de percepção e compreensão refinada ainda melhor. Especificamente, o Vary é competente em novas funcionalidades de análise de documentos (OCR ou conversão para markdown), alcançando 78,2% de ANLS no DocVQA e 36,2% no MMVet. Nosso código estará publicamente disponível na página inicial.

English

Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary -- CLIP, which can cover most common vision tasks. However, for some special vision task that needs dense and fine-grained vision perception, e.g., document-level OCR or chart understanding, especially in non-English scenarios, the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose Vary, an efficient and effective method to scale up the vision vocabulary of LVLMs. The procedures of Vary are naturally divided into two folds: the generation and integration of a new vision vocabulary. In the first phase, we devise a vocabulary network along with a tiny decoder-only transformer to produce the desired vocabulary via autoregression. In the next, we scale up the vanilla vision vocabulary by merging the new one with the original one (CLIP), enabling the LVLMs can quickly garner new features. Compared to the popular BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while enjoying more excellent fine-grained perception and understanding ability. Specifically, Vary is competent in new document parsing features (OCR or markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet. Our code will be publicly available on the homepage.

Vary: Expandindo o Vocabulário Visual para Modelos de Visão e Linguagem em Grande Escala

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Resumo

Support