4M-21: Ein beliebiges Vision-Modell für dutzende Aufgaben und Modalitäten

papers.abstract

Aktuelle multimodale und multitask-Grundlagenmodelle wie 4M oder UnifiedIO zeigen vielversprechende Ergebnisse, aber in der Praxis sind ihre Out-of-the-Box-Fähigkeiten, verschiedene Eingaben zu akzeptieren und verschiedene Aufgaben auszuführen, aufgrund der (in der Regel eher geringen) Anzahl der Modalitäten und Aufgaben, auf die sie trainiert sind, begrenzt. In diesem Paper erweitern wir ihre Fähigkeiten, indem wir ein einziges Modell auf dutzende hochgradig diverse Modalitäten trainieren und Co-Training auf groß angelegten multimodalen Datensätzen und Textkorpora durchführen. Dies beinhaltet das Training auf mehreren semantischen und geometrischen Modalitäten, Merkmalskarten von aktuellen State-of-the-Art-Modellen wie DINOv2 und ImageBind, Pseudo-Labels von Spezialmodellen wie SAM und 4DHumans sowie eine Reihe neuer Modalitäten, die neue Möglichkeiten bieten, mit dem Modell zu interagieren und die Generierung zu steuern, beispielsweise Bildmetadaten oder Farbpaletten. Ein entscheidender Schritt in diesem Prozess ist die Durchführung einer diskreten Tokenisierung auf verschiedenen Modalitäten, sei es bildähnliche Daten, Merkmalskarten neuronaler Netzwerke, Vektoren, strukturierte Daten wie Instanzsegmentierung oder menschliche Posen oder Daten, die als Text dargestellt werden können. Dadurch erweitern wir die Out-of-the-Box-Fähigkeiten von multimodalen Modellen und zeigen speziell die Möglichkeit, ein Modell zu trainieren, um mindestens 3x mehr Aufgaben/Modalitäten zu lösen als bestehende Modelle, und dies ohne Leistungsverlust. Dies ermöglicht feiner abgestimmte und kontrollierbare multimodale Generierungsfähigkeiten und ermöglicht es uns, die Destillation von Modellen, die auf vielfältigen Daten und Zielen trainiert sind, in ein vereinheitlichtes Modell zu untersuchen. Wir skalieren das Training erfolgreich auf ein Modell mit drei Milliarden Parametern unter Verwendung von dutzenden Modalitäten und verschiedenen Datensätzen. Die resultierenden Modelle und der Trainingscode sind unter 4m.epfl.ch Open Source verfügbar.

English

Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.

4M-21: Ein beliebiges Vision-Modell für dutzende Aufgaben und Modalitäten

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

papers.abstract

Support