Vary: Ampliamento del vocabolario visivo per modelli linguistico-visivi su larga scala

Abstract

I moderni Large Vision-Language Models (LVLM) condividono lo stesso vocabolario visivo -- CLIP, che può coprire la maggior parte delle comuni attività visive. Tuttavia, per alcune attività visive speciali che richiedono una percezione visiva densa e fine, ad esempio, l'OCR a livello di documento o la comprensione di grafici, specialmente in scenari non in lingua inglese, il vocabolario in stile CLIP potrebbe incontrare una bassa efficienza nella tokenizzazione della conoscenza visiva e persino soffrire di problemi di fuori vocabolario. Di conseguenza, proponiamo Vary, un metodo efficiente ed efficace per ampliare il vocabolario visivo degli LVLM. Le procedure di Vary sono naturalmente divise in due fasi: la generazione e l'integrazione di un nuovo vocabolario visivo. Nella prima fase, progettiamo una rete di vocabolario insieme a un piccolo trasformatore decoder-only per produrre il vocabolario desiderato tramite autoregressione. Successivamente, ampliamo il vocabolario visivo di base unendo il nuovo vocabolario con quello originale (CLIP), consentendo agli LVLM di acquisire rapidamente nuove caratteristiche. Rispetto ai popolari BLIP-2, MiniGPT4 e LLaVA, Vary può mantenere le sue capacità di base mentre gode di una migliore capacità di percezione e comprensione fine. In particolare, Vary è competente nelle nuove funzionalità di analisi dei documenti (OCR o conversione in markdown) raggiungendo il 78,2% di ANLS in DocVQA e il 36,2% in MMVet. Il nostro codice sarà pubblicamente disponibile sulla homepage.

English

Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary -- CLIP, which can cover most common vision tasks. However, for some special vision task that needs dense and fine-grained vision perception, e.g., document-level OCR or chart understanding, especially in non-English scenarios, the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose Vary, an efficient and effective method to scale up the vision vocabulary of LVLMs. The procedures of Vary are naturally divided into two folds: the generation and integration of a new vision vocabulary. In the first phase, we devise a vocabulary network along with a tiny decoder-only transformer to produce the desired vocabulary via autoregression. In the next, we scale up the vanilla vision vocabulary by merging the new one with the original one (CLIP), enabling the LVLMs can quickly garner new features. Compared to the popular BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while enjoying more excellent fine-grained perception and understanding ability. Specifically, Vary is competent in new document parsing features (OCR or markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet. Our code will be publicly available on the homepage.

Vary: Ampliamento del vocabolario visivo per modelli linguistico-visivi su larga scala

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Abstract

Support