Más allá de LLaVA-HD: Adentrándose en Modelos Multimodales Grandes de Alta Resolución
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Autores: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Resumen
Ver con claridad y alta resolución es un fundamento de los Modelos Multimodales Grandes (LMMs), lo cual ha demostrado ser vital para la percepción visual y el razonamiento. Los trabajos existentes suelen emplear un método directo de aumento de resolución, donde la imagen consta de ramas globales y locales, siendo esta última compuesta por segmentos de la imagen divididos pero redimensionados a la misma resolución que la primera. Esto significa que una mayor resolución requiere más segmentos locales, lo que resulta en costos computacionales excesivos, y al mismo tiempo, el predominio de los tokens de imagen locales puede disminuir el contexto global. En este artículo, profundizamos en estos problemas y proponemos un nuevo marco de trabajo, así como una estrategia de optimización elaborada. Específicamente, extraemos información contextual desde la vista global utilizando una mezcla de adaptadores, basándonos en la observación de que diferentes adaptadores sobresalen en diferentes tareas. Con respecto a los segmentos locales, introducimos embeddings de consulta aprendibles para reducir los tokens de imagen, seleccionando posteriormente los tokens más importantes relacionados con la pregunta del usuario mediante un selector basado en similitud. Nuestros resultados empíricos demuestran un patrón de "menos es más", donde el uso de menos tokens de imagen locales pero más informativos conduce a un mejor rendimiento. Además, un desafío significativo radica en la estrategia de entrenamiento, ya que el entrenamiento simultáneo de extremo a extremo del bloque de minería global y el bloque de compresión local no produce resultados óptimos. Por lo tanto, abogamos por un método de entrenamiento alternado, asegurando un aprendizaje equilibrado entre los aspectos globales y locales. Finalmente, también introducimos un conjunto de datos desafiante con altos requisitos de detalle de imagen, mejorando el entrenamiento de la capa de compresión local. El método propuesto, denominado LMM con Tareas Sofisticadas, Compresión de Imagen Local y Mezcla de Expertos Globales (SliME), logra un rendimiento líder en varios benchmarks con solo 2 millones de datos de entrenamiento.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.Summary
AI-Generated Summary