Más allá de LLaVA-HD: Adentrándose en Modelos Multimodales Grandes de Alta Resolución

Resumen

Ver con claridad y alta resolución es un fundamento de los Modelos Multimodales Grandes (LMMs), lo cual ha demostrado ser vital para la percepción visual y el razonamiento. Los trabajos existentes suelen emplear un método directo de aumento de resolución, donde la imagen consta de ramas globales y locales, siendo esta última compuesta por segmentos de la imagen divididos pero redimensionados a la misma resolución que la primera. Esto significa que una mayor resolución requiere más segmentos locales, lo que resulta en costos computacionales excesivos, y al mismo tiempo, el predominio de los tokens de imagen locales puede disminuir el contexto global. En este artículo, profundizamos en estos problemas y proponemos un nuevo marco de trabajo, así como una estrategia de optimización elaborada. Específicamente, extraemos información contextual desde la vista global utilizando una mezcla de adaptadores, basándonos en la observación de que diferentes adaptadores sobresalen en diferentes tareas. Con respecto a los segmentos locales, introducimos embeddings de consulta aprendibles para reducir los tokens de imagen, seleccionando posteriormente los tokens más importantes relacionados con la pregunta del usuario mediante un selector basado en similitud. Nuestros resultados empíricos demuestran un patrón de "menos es más", donde el uso de menos tokens de imagen locales pero más informativos conduce a un mejor rendimiento. Además, un desafío significativo radica en la estrategia de entrenamiento, ya que el entrenamiento simultáneo de extremo a extremo del bloque de minería global y el bloque de compresión local no produce resultados óptimos. Por lo tanto, abogamos por un método de entrenamiento alternado, asegurando un aprendizaje equilibrado entre los aspectos globales y locales. Finalmente, también introducimos un conjunto de datos desafiante con altos requisitos de detalle de imagen, mejorando el entrenamiento de la capa de compresión local. El método propuesto, denominado LMM con Tareas Sofisticadas, Compresión de Imagen Local y Mezcla de Expertos Globales (SliME), logra un rendimiento líder en varios benchmarks con solo 2 millones de datos de entrenamiento.

English

Seeing clearly with high resolution is a foundation of Large Multimodal Models (LMMs), which has been proven to be vital for visual perception and reasoning. Existing works usually employ a straightforward resolution upscaling method, where the image consists of global and local branches, with the latter being the sliced image patches but resized to the same resolution as the former. This means that higher resolution requires more local patches, resulting in exorbitant computational expenses, and meanwhile, the dominance of local image tokens may diminish the global context. In this paper, we dive into the problems and propose a new framework as well as an elaborate optimization strategy. Specifically, we extract contextual information from the global view using a mixture of adapters, based on the observation that different adapters excel at different tasks. With regard to local patches, learnable query embeddings are introduced to reduce image tokens, the most important tokens accounting for the user question will be further selected by a similarity-based selector. Our empirical results demonstrate a `less is more' pattern, where utilizing fewer but more informative local image tokens leads to improved performance. Besides, a significant challenge lies in the training strategy, as simultaneous end-to-end training of the global mining block and local compression block does not yield optimal results. We thus advocate for an alternating training way, ensuring balanced learning between global and local aspects. Finally, we also introduce a challenging dataset with high requirements for image detail, enhancing the training of the local compression layer. The proposed method, termed LMM with Sophisticated Tasks, Local image compression, and Mixture of global Experts (SliME), achieves leading performance across various benchmarks with only 2 million training data.

Más allá de LLaVA-HD: Adentrándose en Modelos Multimodales Grandes de Alta Resolución

Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Resumen

Support