4M-21: Un modello visione universale per decine di compiti e modalità
4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
June 13, 2024
Autori: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI
Abstract
I modelli di base multimodali e multitask attuali come 4M o UnifiedIO mostrano risultati promettenti, ma nella pratica le loro capacità pronte all'uso di accettare input diversificati e svolgere compiti vari sono limitate dal numero (di solito piuttosto ridotto) di modalità e task su cui vengono addestrati. In questo articolo, espandiamo le capacità di questi modelli addestrando un singolo modello su decine di modalità altamente diversificate e realizzando un co-addestramento su dataset multimodali su larga scala e corpora testuali. Ciò include l'addestramento su diverse modalità semantiche e geometriche, mappe di feature provenienti da modelli all'avanguardia recenti come DINOv2 e ImageBind, etichette pseudo-derivate da modelli specializzati come SAM e 4DHumans, e una gamma di nuove modalità che consentono modi innovativi di interagire con il modello e guidare la generazione, ad esempio metadati di immagini o palette di colori. Un passaggio cruciale in questo processo è l'applicazione della tokenizzazione discreta su varie modalità, siano esse simili a immagini, mappe di feature di reti neurali, vettori, dati strutturati come segmentazione di istanze o pose umane, o dati che possono essere rappresentati come testo. Attraverso questo approccio, ampliamo le capacità pronte all'uso dei modelli multimodali e dimostriamo in particolare la possibilità di addestrare un singolo modello per risolvere almeno 3 volte più task/modalità rispetto a quelli esistenti, mantenendo invariata la performance. Ciò consente capacità di generazione multimodale più granulari e controllabili e ci permette di studiare la distillazione di modelli addestrati su dati e obiettivi diversificati in un modello unificato. Abbiamo scalato con successo l'addestramento a un modello da tre miliardi di parametri utilizzando decine di modalità e diversi dataset. I modelli risultanti e il codice di addestramento sono open source su 4m.epfl.ch.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show
promising results, but in practice their out-of-the-box abilities to accept
diverse inputs and perform diverse tasks are limited by the (usually rather
small) number of modalities and tasks they are trained on. In this paper, we
expand upon the capabilities of them by training a single model on tens of
highly diverse modalities and by performing co-training on large-scale
multimodal datasets and text corpora. This includes training on several
semantic and geometric modalities, feature maps from recent state of the art
models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM
and 4DHumans, and a range of new modalities that allow for novel ways to
interact with the model and steer the generation, for example image metadata or
color palettes. A crucial step in this process is performing discrete
tokenization on various modalities, whether they are image-like, neural network
feature maps, vectors, structured data like instance segmentation or human
poses, or data that can be represented as text. Through this, we expand on the
out-of-the-box capabilities of multimodal models and specifically show the
possibility of training one model to solve at least 3x more tasks/modalities
than existing ones and doing so without a loss in performance. This enables
more fine-grained and controllable multimodal generation capabilities and
allows us to study the distillation of models trained on diverse data and
objectives into a unified model. We successfully scale the training to a three
billion parameter model using tens of modalities and different datasets. The
resulting models and training code are open sourced at 4m.epfl.ch.