Jenseits von LLaVA-HD: Eintauchen in hochauflösende große multimodale Modelle
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models
June 12, 2024
Autoren: Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin
cs.AI
Zusammenfassung
Eine klare Sicht mit hoher Auflösung ist ein Grundpfeiler großer multimodaler Modelle (LMMs), die sich als entscheidend für die visuelle Wahrnehmung und das Schlussfolgern erwiesen haben. In bestehenden Arbeiten wird in der Regel eine einfache Methode zur Auflösungsskalierung verwendet, bei der das Bild aus globalen und lokalen Zweigen besteht, wobei letztere aus den geschnittenen Bildausschnitten bestehen, die jedoch auf dieselbe Auflösung wie die ersteren skaliert werden. Dies bedeutet, dass eine höhere Auflösung mehr lokale Ausschnitte erfordert, was zu exorbitanten Rechenaufwänden führt, während gleichzeitig die Dominanz lokaler Bildtoken den globalen Kontext verringern kann. In diesem Papier gehen wir auf die Probleme ein und schlagen ein neues Framework sowie eine ausgearbeitete Optimierungsstrategie vor. Speziell extrahieren wir kontextbezogene Informationen aus der globalen Ansicht mithilfe einer Mischung von Adaptern, basierend auf der Beobachtung, dass verschiedene Adapter in verschiedenen Aufgaben herausragend sind. In Bezug auf lokale Ausschnitte werden erlernbare Abfrageeinbettungen eingeführt, um Bildtoken zu reduzieren, wobei die wichtigsten Token, die für die Benutzerfrage relevant sind, durch einen ähnlichkeitsbasierten Selektor weiter ausgewählt werden. Unsere empirischen Ergebnisse zeigen ein Muster von 'weniger ist mehr', bei dem die Verwendung weniger, aber informativerer lokaler Bildtoken zu einer verbesserten Leistung führt. Darüber hinaus liegt eine bedeutende Herausforderung in der Trainingsstrategie, da ein simultanes End-to-End-Training des globalen Mining-Blocks und des lokalen Kompressionsblocks keine optimalen Ergebnisse liefert. Daher befürworten wir einen alternierenden Schulungsweg, der ein ausgewogenes Lernen zwischen globalen und lokalen Aspekten gewährleistet. Schließlich stellen wir auch einen anspruchsvollen Datensatz mit hohen Anforderungen an das Bilddetail vor, um das Training der lokalen Kompressionsschicht zu verbessern. Die vorgeschlagene Methode, genannt LMM mit anspruchsvollen Aufgaben, lokaler Bildkompression und Mischung globaler Experten (SliME), erzielt führende Leistungen in verschiedenen Benchmarks mit nur 2 Millionen Trainingsdaten.
English
Seeing clearly with high resolution is a foundation of Large Multimodal
Models (LMMs), which has been proven to be vital for visual perception and
reasoning. Existing works usually employ a straightforward resolution upscaling
method, where the image consists of global and local branches, with the latter
being the sliced image patches but resized to the same resolution as the
former. This means that higher resolution requires more local patches,
resulting in exorbitant computational expenses, and meanwhile, the dominance of
local image tokens may diminish the global context. In this paper, we dive into
the problems and propose a new framework as well as an elaborate optimization
strategy. Specifically, we extract contextual information from the global view
using a mixture of adapters, based on the observation that different adapters
excel at different tasks. With regard to local patches, learnable query
embeddings are introduced to reduce image tokens, the most important tokens
accounting for the user question will be further selected by a similarity-based
selector. Our empirical results demonstrate a `less is more' pattern, where
utilizing fewer but more informative local image tokens leads to
improved performance. Besides, a significant challenge lies in the training
strategy, as simultaneous end-to-end training of the global mining block and
local compression block does not yield optimal results. We thus advocate for an
alternating training way, ensuring balanced learning between global and local
aspects. Finally, we also introduce a challenging dataset with high
requirements for image detail, enhancing the training of the local compression
layer. The proposed method, termed LMM with Sophisticated Tasks, Local image
compression, and Mixture of global Experts (SliME), achieves leading
performance across various benchmarks with only 2 million training data.Summary
AI-Generated Summary