Au-delà de LLaVA-HD : Plongée dans les modèles multimodaux de grande taille à haute résolution
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Auteurs: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Résumé
Voir clairement avec une haute résolution constitue un fondement essentiel des Modèles Multimodaux de Grande Taille (LMMs), ce qui s'est avéré crucial pour la perception visuelle et le raisonnement. Les travaux existants utilisent généralement une méthode simple de suréchantillonnage de la résolution, où l'image est composée de branches globale et locale, cette dernière étant constituée de patches d'image découpés mais redimensionnés à la même résolution que la première. Cela signifie qu'une résolution plus élevée nécessite davantage de patches locaux, entraînant des coûts de calcul exorbitants, tandis que la dominance des tokens d'image locaux peut diminuer le contexte global. Dans cet article, nous explorons ces problèmes et proposons un nouveau cadre ainsi qu'une stratégie d'optimisation élaborée. Plus précisément, nous extrayons les informations contextuelles de la vue globale en utilisant un mélange d'adaptateurs, basé sur l'observation que différents adaptateurs excellent à différentes tâches. Concernant les patches locaux, des embeddings de requêtes apprenables sont introduits pour réduire les tokens d'image, les tokens les plus importants correspondant à la question de l'utilisateur étant ensuite sélectionnés par un sélecteur basé sur la similarité. Nos résultats empiriques démontrent un schéma "moins c'est plus", où l'utilisation de moins de tokens d'image locaux mais plus informatifs conduit à une amélioration des performances. Par ailleurs, un défi majeur réside dans la stratégie d'entraînement, car un entraînement simultané de bout en bout du bloc d'extraction globale et du bloc de compression locale ne donne pas de résultats optimaux. Nous préconisons donc une méthode d'entraînement alternée, assurant un apprentissage équilibré entre les aspects globaux et locaux. Enfin, nous introduisons également un jeu de données exigeant en termes de détails d'image, renforçant l'entraînement de la couche de compression locale. La méthode proposée, nommée LMM avec Tâches Sophistiquées, Compression d'Image Locale et Mélange d'Experts Globaux (SliME), atteint des performances de pointe sur divers benchmarks avec seulement 2 millions de données d'entraînement.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.Summary
AI-Generated Summary