Vary: Escalando el vocabulario visual para modelos grandes de visión y lenguaje
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
December 11, 2023
Autores: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
Resumen
Los Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) modernos utilizan el mismo vocabulario visual: CLIP, que puede cubrir la mayoría de las tareas visuales comunes. Sin embargo, para algunas tareas visuales especiales que requieren una percepción visual densa y detallada, como el OCR a nivel de documento o la comprensión de gráficos, especialmente en escenarios no angloparlantes, el vocabulario de estilo CLIP puede presentar baja eficiencia al tokenizar el conocimiento visual e incluso sufrir problemas de palabras fuera de vocabulario. En consecuencia, proponemos Vary, un método eficiente y efectivo para ampliar el vocabulario visual de los LVLMs. Los procedimientos de Vary se dividen naturalmente en dos partes: la generación e integración de un nuevo vocabulario visual. En la primera fase, diseñamos una red de vocabulario junto con un pequeño transformador de solo decodificación para producir el vocabulario deseado mediante autoregresión. En la siguiente, ampliamos el vocabulario visual original fusionándolo con el nuevo (CLIP), permitiendo que los LVLMs adquieran rápidamente nuevas características. En comparación con los populares BLIP-2, MiniGPT4 y LLaVA, Vary puede mantener sus capacidades originales mientras disfruta de una excelente capacidad de percepción y comprensión detallada. Específicamente, Vary es competente en nuevas funciones de análisis de documentos (OCR o conversión a markdown) mientras alcanza un 78.2% de ANLS en DocVQA y un 36.2% en MMVet. Nuestro código estará disponible públicamente en la página principal.
English
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.