Vary: Het opschalen van het visuele vocabulaire voor grote visueel-taalmodelen
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
December 11, 2023
Auteurs: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
Samenvatting
Moderne Large Vision-Language Models (LVLMs) maken gebruik van hetzelfde visuele vocabulaire — CLIP, dat de meeste gangbare visuele taken kan afdekken. Voor sommige speciale visuele taken die een dichte en fijnmazige visuele waarneming vereisen, zoals OCR op documentniveau of het begrijpen van grafieken, vooral in niet-Engelstalige scenario's, kan het CLIP-stijl vocabulaire echter inefficiënt zijn bij het tokeniseren van visuele kennis en zelfs last hebben van out-of-vocabulary problemen. Daarom stellen we Vary voor, een efficiënte en effectieve methode om het visuele vocabulaire van LVLMs uit te breiden. De procedures van Vary zijn van nature verdeeld in twee delen: de generatie en integratie van een nieuw visueel vocabulaire. In de eerste fase ontwerpen we een vocabulaire netwerk samen met een kleine decoder-only transformer om het gewenste vocabulaire te produceren via autoregressie. Vervolgens breiden we het standaard visuele vocabulaire uit door het nieuwe vocabulaire te combineren met het originele (CLIP), waardoor de LVLMs snel nieuwe kenmerken kunnen verwerven. In vergelijking met de populaire BLIP-2, MiniGPT4 en LLaVA, kan Vary zijn standaard mogelijkheden behouden terwijl het een uitstekend fijnmazig waarnemings- en begripsvermogen heeft. Specifiek is Vary bekwaam in nieuwe documentparsingsfuncties (OCR of markdown-conversie) terwijl het 78,2% ANLS behaalt in DocVQA en 36,2% in MMVet. Onze code zal openbaar beschikbaar zijn op de homepage.
English
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.