Vary: Expandindo o Vocabulário Visual para Modelos de Visão e Linguagem em Grande Escala
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
December 11, 2023
Autores: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
Resumo
Os modernos Modelos de Grande Escala de Visão e Linguagem (LVLMs) utilizam o mesmo vocabulário visual -- CLIP, que pode cobrir a maioria das tarefas visuais comuns. No entanto, para algumas tarefas visuais especiais que exigem percepção visual densa e refinada, como OCR em nível de documento ou compreensão de gráficos, especialmente em cenários não ingleses, o vocabulário no estilo CLIP pode enfrentar baixa eficiência na tokenização do conhecimento visual e até mesmo sofrer com problemas de termos fora do vocabulário. Diante disso, propomos o Vary, um método eficiente e eficaz para ampliar o vocabulário visual dos LVLMs. Os procedimentos do Vary são naturalmente divididos em duas etapas: a geração e a integração de um novo vocabulário visual. Na primeira fase, projetamos uma rede de vocabulário junto com um pequeno transformador apenas de decodificação para produzir o vocabulário desejado por meio de autoregressão. Em seguida, ampliamos o vocabulário visual original ao mesclar o novo com o original (CLIP), permitindo que os LVLMs possam rapidamente adquirir novos recursos. Em comparação com os populares BLIP-2, MiniGPT4 e LLaVA, o Vary consegue manter suas capacidades originais enquanto desfruta de uma capacidade de percepção e compreensão refinada ainda melhor. Especificamente, o Vary é competente em novas funcionalidades de análise de documentos (OCR ou conversão para markdown), alcançando 78,2% de ANLS no DocVQA e 36,2% no MMVet. Nosso código estará publicamente disponível na página inicial.
English
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.