4M-21: Ein beliebiges Vision-Modell für dutzende Aufgaben und Modalitäten
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
June 13, 2024
papers.authors: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI
papers.abstract
Aktuelle multimodale und multitask-Grundlagenmodelle wie 4M oder UnifiedIO zeigen vielversprechende Ergebnisse, aber in der Praxis sind ihre Out-of-the-Box-Fähigkeiten, verschiedene Eingaben zu akzeptieren und verschiedene Aufgaben auszuführen, aufgrund der (in der Regel eher geringen) Anzahl der Modalitäten und Aufgaben, auf die sie trainiert sind, begrenzt. In diesem Paper erweitern wir ihre Fähigkeiten, indem wir ein einziges Modell auf dutzende hochgradig diverse Modalitäten trainieren und Co-Training auf groß angelegten multimodalen Datensätzen und Textkorpora durchführen. Dies beinhaltet das Training auf mehreren semantischen und geometrischen Modalitäten, Merkmalskarten von aktuellen State-of-the-Art-Modellen wie DINOv2 und ImageBind, Pseudo-Labels von Spezialmodellen wie SAM und 4DHumans sowie eine Reihe neuer Modalitäten, die neue Möglichkeiten bieten, mit dem Modell zu interagieren und die Generierung zu steuern, beispielsweise Bildmetadaten oder Farbpaletten. Ein entscheidender Schritt in diesem Prozess ist die Durchführung einer diskreten Tokenisierung auf verschiedenen Modalitäten, sei es bildähnliche Daten, Merkmalskarten neuronaler Netzwerke, Vektoren, strukturierte Daten wie Instanzsegmentierung oder menschliche Posen oder Daten, die als Text dargestellt werden können. Dadurch erweitern wir die Out-of-the-Box-Fähigkeiten von multimodalen Modellen und zeigen speziell die Möglichkeit, ein Modell zu trainieren, um mindestens 3x mehr Aufgaben/Modalitäten zu lösen als bestehende Modelle, und dies ohne Leistungsverlust. Dies ermöglicht feiner abgestimmte und kontrollierbare multimodale Generierungsfähigkeiten und ermöglicht es uns, die Destillation von Modellen, die auf vielfältigen Daten und Zielen trainiert sind, in ein vereinheitlichtes Modell zu untersuchen. Wir skalieren das Training erfolgreich auf ein Modell mit drei Milliarden Parametern unter Verwendung von dutzenden Modalitäten und verschiedenen Datensätzen. Die resultierenden Modelle und der Trainingscode sind unter 4m.epfl.ch Open Source verfügbar.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show
promising results, but in practice their out-of-the-box abilities to accept
diverse inputs and perform diverse tasks are limited by the (usually rather
small) number of modalities and tasks they are trained on. In this paper, we
expand upon the capabilities of them by training a single model on tens of
highly diverse modalities and by performing co-training on large-scale
multimodal datasets and text corpora. This includes training on several
semantic and geometric modalities, feature maps from recent state of the art
models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM
and 4DHumans, and a range of new modalities that allow for novel ways to
interact with the model and steer the generation, for example image metadata or
color palettes. A crucial step in this process is performing discrete
tokenization on various modalities, whether they are image-like, neural network
feature maps, vectors, structured data like instance segmentation or human
poses, or data that can be represented as text. Through this, we expand on the
out-of-the-box capabilities of multimodal models and specifically show the
possibility of training one model to solve at least 3x more tasks/modalities
than existing ones and doing so without a loss in performance. This enables
more fine-grained and controllable multimodal generation capabilities and
allows us to study the distillation of models trained on diverse data and
objectives into a unified model. We successfully scale the training to a three
billion parameter model using tens of modalities and different datasets. The
resulting models and training code are open sourced at 4m.epfl.ch.