Vary: Масштабирование словаря визуальных элементов для крупных моделей обработки визуально-языковых данных
Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models
December 11, 2023
Авторы: Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, Xiangyu Zhang
cs.AI
Аннотация
Современные крупные модели обработки зрения и языка (LVLMs) используют общий словарь для задач зрения — CLIP, который охватывает большинство стандартных задач. Однако для некоторых специализированных задач, требующих плотного и детализированного восприятия, таких как OCR на уровне документов или понимание графиков, особенно в неанглоязычных сценариях, словарь в стиле CLIP может демонстрировать низкую эффективность в токенизации визуальных данных и даже сталкиваться с проблемой отсутствия слов в словаре. В связи с этим мы предлагаем Vary — эффективный метод масштабирования словаря зрения для LVLMs. Процедура Vary естественным образом разделяется на два этапа: генерация и интеграция нового словаря зрения. На первом этапе мы разрабатываем сеть словаря вместе с компактным трансформером, работающим только на декодировании, для создания желаемого словаря с помощью авторегрессии. На следующем этапе мы расширяем базовый словарь зрения, объединяя новый словарь с исходным (CLIP), что позволяет LVLMs быстро осваивать новые функции. По сравнению с популярными моделями BLIP-2, MiniGPT4 и LLaVA, Vary сохраняет свои базовые возможности, одновременно демонстрируя более высокую способность к детализированному восприятию и пониманию. В частности, Vary успешно справляется с новыми функциями анализа документов (OCR или преобразование в markdown), достигая 78,2% ANLS в DocVQA и 36,2% в MMVet. Наш код будет доступен на домашней странице.
English
Modern Large Vision-Language Models (LVLMs) enjoy the same vision vocabulary
-- CLIP, which can cover most common vision tasks. However, for some special
vision task that needs dense and fine-grained vision perception, e.g.,
document-level OCR or chart understanding, especially in non-English scenarios,
the CLIP-style vocabulary may encounter low efficiency in tokenizing the vision
knowledge and even suffer out-of-vocabulary problem. Accordingly, we propose
Vary, an efficient and effective method to scale up the vision vocabulary of
LVLMs. The procedures of Vary are naturally divided into two folds: the
generation and integration of a new vision vocabulary. In the first phase, we
devise a vocabulary network along with a tiny decoder-only transformer to
produce the desired vocabulary via autoregression. In the next, we scale up the
vanilla vision vocabulary by merging the new one with the original one (CLIP),
enabling the LVLMs can quickly garner new features. Compared to the popular
BLIP-2, MiniGPT4, and LLaVA, Vary can maintain its vanilla capabilities while
enjoying more excellent fine-grained perception and understanding ability.
Specifically, Vary is competent in new document parsing features (OCR or
markdown conversion) while achieving 78.2% ANLS in DocVQA and 36.2% in MMVet.
Our code will be publicly available on the homepage.