Vary : Élargir le vocabulaire visuel pour les modèles de vision et langage à grande échelle
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
December 11, 2023
Auteurs: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
Résumé
Les modèles modernes de vision et langage à grande échelle (LVLMs) utilisent le même vocabulaire visuel — CLIP, qui peut couvrir la plupart des tâches visuelles courantes. Cependant, pour certaines tâches visuelles spécifiques nécessitant une perception visuelle dense et fine, par exemple, la reconnaissance optique de caractères (OCR) au niveau documentaire ou la compréhension de graphiques, en particulier dans des scénarios non anglophones, le vocabulaire de type CLIP peut rencontrer une faible efficacité dans la tokenisation des connaissances visuelles et même souffrir de problèmes de hors-vocabulaire. En conséquence, nous proposons Vary, une méthode efficace et efficiente pour étendre le vocabulaire visuel des LVLMs. Les procédures de Vary se divisent naturellement en deux étapes : la génération et l'intégration d'un nouveau vocabulaire visuel. Dans la première phase, nous concevons un réseau de vocabulaire accompagné d'un petit transformeur décodeur uniquement pour produire le vocabulaire souhaité via autoregression. Ensuite, nous étendons le vocabulaire visuel de base en fusionnant le nouveau vocabulaire avec l'original (CLIP), permettant aux LVLMs d'acquérir rapidement de nouvelles fonctionnalités. Comparé aux modèles populaires BLIP-2, MiniGPT4 et LLaVA, Vary peut maintenir ses capacités de base tout en bénéficiant d'une meilleure perception fine et d'une capacité de compréhension accrue. Plus précisément, Vary est compétent dans les nouvelles fonctionnalités d'analyse de documents (OCR ou conversion en markdown) tout en atteignant 78,2 % d'ANLS dans DocVQA et 36,2 % dans MMVet. Notre code sera rendu public sur la page d'accueil.
English
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.