За пределами LLaVA-HD: Погружение в модели большого разрешения с многомодальными данными
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Авторы: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Аннотация
Четкое видение с высоким разрешением является основой для больших мультимодальных моделей (LMM), что доказано важным для визуального восприятия и рассуждений. Существующие работы обычно используют прямой метод увеличения разрешения, где изображение состоит из глобальных и локальных ветвей, последние представляют собой нарезанные патчи изображения, но измененные до того же разрешения, что и первые. Это означает, что более высокое разрешение требует большего количества локальных патчей, что приводит к чрезмерным вычислительным затратам, и в то же время доминирование локальных токенов изображения может уменьшить глобальный контекст. В данной статье мы рассматриваем проблемы и предлагаем новую концепцию, а также тщательную стратегию оптимизации. Конкретно, мы извлекаем контекстную информацию из глобального вида с помощью смеси адаптеров, основываясь на наблюдении, что различные адаптеры превосходят в различных задачах. Что касается локальных патчей, вводятся обучаемые встраивания запросов для уменьшения токенов изображения, наиболее важные токены, соответствующие вопросу пользователя, будут дополнительно выбраны с помощью селектора на основе сходства. Наши эмпирические результаты демонстрируют паттерн "меньше - значит больше", где использование меньшего, но более информативного количества локальных токенов изображения приводит к улучшению производительности. Кроме того, значительная сложность заключается в стратегии обучения, поскольку одновременное обучение конечных блоков глобального майнинга и локального сжатия не приводит к оптимальным результатам. Мы поэтому выступаем за чередующийся способ обучения, обеспечивая сбалансированное обучение между глобальными и локальными аспектами. Наконец, мы также представляем сложный набор данных с высокими требованиями к деталям изображения, улучшая обучение локального слоя сжатия. Предложенный метод, названный LMM с Сложными Задачами, Локальным сжатием изображения и Смесью глобальных Экспертов (SliME), достигает ведущей производительности на различных бенчмарках с всего 2 миллионами обучающих данных.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.Summary
AI-Generated Summary