Oltre LLaVA-HD: Esplorazione dei Modelli Multimodali di Grande Dimensione ad Alta Risoluzione
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Autori: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Abstract
Vedere chiaramente con alta risoluzione è un fondamento dei Modelli Multimodali di Grande Scala (LMM), che si è dimostrato cruciale per la percezione e il ragionamento visivo. I lavori esistenti impiegano solitamente un metodo semplice di upscaling della risoluzione, in cui l'immagine è composta da rami globali e locali, con quest'ultimi costituiti da porzioni di immagine tagliate ma ridimensionate alla stessa risoluzione dei primi. Ciò significa che una risoluzione più elevata richiede un numero maggiore di porzioni locali, con conseguenti costi computazionali esorbitanti, e allo stesso tempo, la predominanza dei token locali dell'immagine può ridurre il contesto globale. In questo articolo, approfondiamo i problemi e proponiamo un nuovo framework insieme a una strategia di ottimizzazione elaborata. Nello specifico, estraiamo informazioni contestuali dalla visione globale utilizzando una miscela di adattatori, basandoci sull'osservazione che diversi adattatori eccellono in compiti diversi. Per quanto riguarda le porzioni locali, introduciamo embedding di query apprendibili per ridurre i token dell'immagine, e i token più importanti relativi alla domanda dell'utente verranno ulteriormente selezionati da un selettore basato sulla similarità. I nostri risultati empirici dimostrano un modello "less is more", in cui l'utilizzo di un numero inferiore ma più informativo di token locali dell'immagine porta a prestazioni migliorate. Inoltre, una sfida significativa risiede nella strategia di addestramento, poiché l'addestramento end-to-end simultaneo del blocco di estrazione globale e del blocco di compressione locale non produce risultati ottimali. Proponiamo quindi un metodo di addestramento alternato, garantendo un apprendimento bilanciato tra aspetti globali e locali. Infine, introduciamo anche un dataset impegnativo con requisiti elevati per i dettagli dell'immagine, migliorando l'addestramento dello strato di compressione locale. Il metodo proposto, denominato LMM con Compiti Sofisticati, Compressione Locale dell'Immagine e Miscela di Esperti Globali (SliME), raggiunge prestazioni leader in vari benchmark con soli 2 milioni di dati di addestramento.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.