Modèle unifié pour les tâches d'image, vidéo, audio et langage
Unified Model for Image, Video, Audio and Language Tasks
July 30, 2023
Auteurs: Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont rapproché la quête ambitieuse d'agents généralistes de la réalité. Un obstacle majeur à la construction de tels modèles généraux réside dans la diversité et l'hétérogénéité des tâches et des modalités. Une solution prometteuse est l'unification, permettant de supporter une multitude de tâches et de modalités dans un cadre unifié. Bien que quelques grands modèles (par exemple, Flamingo (Alayrac et al., 2022), entraînés sur des ensembles de données massifs, puissent supporter plus de deux modalités, les modèles unifiés de petite à moyenne échelle actuels sont encore limités à 2 modalités, généralement image-texte ou vidéo-texte. La question que nous posons est : est-il possible de construire efficacement un modèle unifié capable de supporter toutes les modalités ? Pour y répondre, nous proposons UnIVAL, un pas de plus vers cet objectif ambitieux. Sans s'appuyer sur des ensembles de données gigantesques ou des modèles avec des milliards de paramètres, le modèle UnIVAL de ~ 0,25 milliard de paramètres va au-delà de deux modalités et unifie le texte, les images, la vidéo et l'audio dans un seul modèle. Notre modèle est efficacement pré-entraîné sur de nombreuses tâches, basé sur l'équilibrage des tâches et l'apprentissage curriculaire multimodal. UnIVAL montre des performances compétitives par rapport aux approches de pointe existantes, à travers les tâches image-texte et vidéo-texte. Les représentations de caractéristiques apprises à partir des modalités image et vidéo-texte permettent au modèle d'atteindre des performances compétitives lorsqu'il est affiné sur des tâches audio-texte, malgré l'absence de pré-entraînement sur l'audio. Grâce au modèle unifié, nous proposons une nouvelle étude sur la fusion de modèles multimodaux via l'interpolation de poids de modèles entraînés sur différentes tâches multimodales, montrant leurs avantages notamment pour la généralisation hors distribution. Enfin, nous motivons l'unification en montrant la synergie entre les tâches. Les poids du modèle et le code sont disponibles ici : https://github.com/mshukor/UnIVAL.
English
Large Language Models (LLMs) have made the ambitious quest for generalist
agents significantly far from being a fantasy. A key hurdle for building such
general models is the diversity and heterogeneity of tasks and modalities. A
promising solution is unification, allowing the support of a myriad of tasks
and modalities within one unified framework. While few large models (e.g.,
Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more
than two modalities, current small to mid-scale unified models are still
limited to 2 modalities, usually image-text or video-text. The question that we
ask is: is it possible to build efficiently a unified model that can support
all modalities? To answer this, we propose UnIVAL, a step further towards this
ambitious goal. Without relying on fancy datasets sizes or models with billions
of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities
and unifies text, images, video, and audio into a single model. Our model is
efficiently pretrained on many tasks, based on task balancing and multimodal
curriculum learning. UnIVAL shows competitive performance to existing
state-of-the-art approaches, across image and video-text tasks. The feature
representations learned from image and video-text modalities, allows the model
to achieve competitive performance when finetuned on audio-text tasks, despite
not being pretrained on audio. Thanks to the unified model, we propose a novel
study on multimodal model merging via weight interpolation of models trained on
different multimodal tasks, showing their benefits in particular for
out-of-distribution generalization. Finally, we motivate unification by showing
the synergy between tasks. The model weights and code are released here:
https://github.com/mshukor/UnIVAL.