Voorbij LLaVA-HD: Duiken in Hoogresolutie Grote Multimodale Modellen
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Auteurs: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Samenvatting
Helder zien met hoge resolutie is een fundament van Grote Multimodale Modellen (LMMs), wat bewezen is van vitaal belang te zijn voor visuele perceptie en redenering. Bestaande werken gebruiken meestal een eenvoudige methode voor resolutie-opschaling, waarbij de afbeelding bestaat uit globale en lokale takken, waarbij de laatste de gesneden afbeeldingspatches zijn maar worden aangepast aan dezelfde resolutie als de eerste. Dit betekent dat een hogere resolutie meer lokale patches vereist, wat resulteert in exorbitante rekenkosten, en tegelijkertijd kan de dominantie van lokale afbeeldingstokens de globale context verminderen. In dit artikel duiken we in de problemen en stellen we een nieuw framework voor, evenals een uitgebreide optimalisatiestrategie. Specifiek extraheren we contextuele informatie uit het globale beeld met behulp van een mengsel van adapters, gebaseerd op de observatie dat verschillende adapters uitblinken in verschillende taken. Met betrekking tot lokale patches worden leerbare query-embeddings geïntroduceerd om afbeeldingstokens te verminderen, waarbij de belangrijkste tokens die betrekking hebben op de gebruikersvraag verder worden geselecteerd door een op gelijkenis gebaseerde selector. Onze empirische resultaten tonen een 'minder is meer'-patroon, waarbij het gebruik van minder maar meer informatieve lokale afbeeldingstokens leidt tot verbeterde prestaties. Daarnaast ligt een belangrijke uitdaging in de trainingsstrategie, aangezien gelijktijdige end-to-end training van het globale mijnblok en het lokale compressieblok niet optimale resultaten oplevert. Wij pleiten daarom voor een afwisselende trainingswijze, die een gebalanceerd leren tussen globale en lokale aspecten waarborgt. Tot slot introduceren we ook een uitdagende dataset met hoge eisen aan afbeeldingsdetails, wat de training van de lokale compressielaag versterkt. De voorgestelde methode, genaamd LMM met Verfijnde Taken, Lokale afbeeldingscompressie en Mengsel van Globale Experts (SliME), behaalt toonaangevende prestaties op verschillende benchmarks met slechts 2 miljoen trainingsdata.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.