ChatPaper.aiChatPaper

4M-21 : Un modèle de vision universel pour des dizaines de tâches et modalités

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

June 13, 2024
Auteurs: Roman Bachmann, Oğuzhan Fatih Kar, David Mizrahi, Ali Garjani, Mingfei Gao, David Griffiths, Jiaming Hu, Afshin Dehghan, Amir Zamir
cs.AI

Résumé

Les modèles de base multimodaux et multitâches actuels comme 4M ou UnifiedIO montrent des résultats prometteurs, mais en pratique, leurs capacités prêtes à l'emploi pour accepter des entrées diverses et exécuter des tâches variées sont limitées par le nombre (généralement assez réduit) de modalités et de tâches sur lesquelles ils sont entraînés. Dans cet article, nous étendons leurs capacités en entraînant un seul modèle sur des dizaines de modalités hautement diversifiées et en effectuant un co-entraînement sur des ensembles de données multimodales à grande échelle et des corpus textuels. Cela inclut l'entraînement sur plusieurs modalités sémantiques et géométriques, des cartes de caractéristiques issues de modèles récents de pointe comme DINOv2 et ImageBind, des pseudo-labels de modèles spécialisés comme SAM et 4DHumans, ainsi qu'une gamme de nouvelles modalités qui permettent des interactions novatrices avec le modèle et un pilotage de la génération, par exemple les métadonnées d'images ou les palettes de couleurs. Une étape cruciale dans ce processus consiste à effectuer une tokenisation discrète sur diverses modalités, qu'elles soient de type image, des cartes de caractéristiques de réseaux neuronaux, des vecteurs, des données structurées comme la segmentation d'instances ou les poses humaines, ou des données pouvant être représentées sous forme de texte. Ainsi, nous étendons les capacités prêtes à l'emploi des modèles multimodaux et montrons spécifiquement la possibilité d'entraîner un seul modèle pour résoudre au moins 3 fois plus de tâches/modalités que les modèles existants, et ce sans perte de performance. Cela permet des capacités de génération multimodale plus fines et contrôlables, et nous permet d'étudier la distillation de modèles entraînés sur des données et des objectifs divers dans un modèle unifié. Nous réussissons à mettre à l'échelle l'entraînement pour un modèle de trois milliards de paramètres utilisant des dizaines de modalités et différents ensembles de données. Les modèles résultants et le code d'entraînement sont open source sur 4m.epfl.ch.
English
Current multimodal and multitask foundation models like 4M or UnifiedIO show promising results, but in practice their out-of-the-box abilities to accept diverse inputs and perform diverse tasks are limited by the (usually rather small) number of modalities and tasks they are trained on. In this paper, we expand upon the capabilities of them by training a single model on tens of highly diverse modalities and by performing co-training on large-scale multimodal datasets and text corpora. This includes training on several semantic and geometric modalities, feature maps from recent state of the art models like DINOv2 and ImageBind, pseudo labels of specialist models like SAM and 4DHumans, and a range of new modalities that allow for novel ways to interact with the model and steer the generation, for example image metadata or color palettes. A crucial step in this process is performing discrete tokenization on various modalities, whether they are image-like, neural network feature maps, vectors, structured data like instance segmentation or human poses, or data that can be represented as text. Through this, we expand on the out-of-the-box capabilities of multimodal models and specifically show the possibility of training one model to solve at least 3x more tasks/modalities than existing ones and doing so without a loss in performance. This enables more fine-grained and controllable multimodal generation capabilities and allows us to study the distillation of models trained on diverse data and objectives into a unified model. We successfully scale the training to a three billion parameter model using tens of modalities and different datasets. The resulting models and training code are open sourced at 4m.epfl.ch.

Summary

AI-Generated Summary

PDF152December 6, 2024