Vary: Skalierung des visuellen Vokabulars für große visuell-sprachliche Modelle
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
December 11, 2023
Autoren: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
Zusammenfassung
Moderne Large Vision-Language Models (LVLMs) nutzen dasselbe visuelle Vokabular – CLIP, das die meisten gängigen visuellen Aufgaben abdecken kann. Für spezielle visuelle Aufgaben, die eine dichte und feinkörnige visuelle Wahrnehmung erfordern, wie z.B. dokumentenbasierte OCR oder Diagrammverständnis, insbesondere in nicht-englischen Szenarien, kann das CLIP-artige Vokabular jedoch ineffizient bei der Tokenisierung des visuellen Wissens sein und sogar auf Out-of-Vocabulary-Probleme stoßen. Dementsprechend schlagen wir Vary vor, eine effiziente und effektive Methode zur Erweiterung des visuellen Vokabulars von LVLMs. Die Verfahren von Vary lassen sich natürlich in zwei Schritte unterteilen: die Generierung und Integration eines neuen visuellen Vokabulars. In der ersten Phase entwickeln wir ein Vokabelnetzwerk zusammen mit einem kleinen Decoder-Only-Transformer, um das gewünschte Vokabular durch Autoregression zu erzeugen. Im nächsten Schritt erweitern wir das ursprüngliche visuelle Vokabular, indem wir das neue mit dem ursprünglichen (CLIP) zusammenführen, wodurch die LVLMs schnell neue Merkmale erfassen können. Im Vergleich zu den populären Modellen BLIP-2, MiniGPT4 und LLaVA kann Vary seine ursprünglichen Fähigkeiten beibehalten und gleichzeitig eine hervorragende feinkörnige Wahrnehmungs- und Verständnisfähigkeit genießen. Insbesondere ist Vary in der Lage, neue Funktionen zur Dokumentenanalyse (OCR oder Markdown-Konvertierung) zu bewältigen, während es 78,2 % ANLS in DocVQA und 36,2 % in MMVet erreicht. Unser Code wird auf der Homepage öffentlich verfügbar sein.
English
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.