Além do LLaVA-HD: Explorando Modelos Multimodais de Grande Escala em Alta Resolução
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Autores: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Resumo
Ver com clareza e alta resolução é um fundamento dos Modelos Multimodais de Grande Escala (LMMs), o que tem se mostrado vital para a percepção visual e o raciocínio. Trabalhos existentes geralmente empregam um método direto de aumento de resolução, onde a imagem consiste em ramificações globais e locais, sendo a última composta por segmentos de imagem cortados, mas redimensionados para a mesma resolução da primeira. Isso significa que uma resolução mais alta exige mais segmentos locais, resultando em custos computacionais exorbitantes e, ao mesmo tempo, a dominância dos tokens de imagem locais pode diminuir o contexto global. Neste artigo, exploramos esses problemas e propomos uma nova estrutura, bem como uma estratégia de otimização elaborada. Especificamente, extraímos informações contextuais da visão global usando uma mistura de adaptadores, com base na observação de que diferentes adaptadores se destacam em diferentes tarefas. Em relação aos segmentos locais, embeddings de consulta aprendíveis são introduzidos para reduzir os tokens de imagem, e os tokens mais importantes, considerando a pergunta do usuário, serão selecionados por um seletor baseado em similaridade. Nossos resultados empíricos demonstram um padrão de "menos é mais", onde a utilização de menos tokens de imagem locais, porém mais informativos, leva a um desempenho melhorado. Além disso, um desafio significativo reside na estratégia de treinamento, pois o treinamento simultâneo de ponta a ponta do bloco de mineração global e do bloco de compressão local não produz resultados ideais. Assim, defendemos uma abordagem de treinamento alternado, garantindo um aprendizado equilibrado entre os aspectos globais e locais. Por fim, também introduzimos um conjunto de dados desafiador com altos requisitos para detalhes de imagem, aprimorando o treinamento da camada de compressão local. O método proposto, denominado LMM com Tarefas Sofisticadas, Compressão de Imagem Local e Mistura de Especialistas Globais (SliME), alcança desempenho líder em vários benchmarks com apenas 2 milhões de dados de treinamento.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.