Modelo Unificado para Tarefas de Imagem, Vídeo, Áudio e Linguagem
Unified Model for Image, Video, Audio and Language Tasks
July 30, 2023
Autores: Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram a ambiciosa busca por agentes generalistas significativamente mais próxima da realidade. Um dos principais desafios para a construção de tais modelos gerais é a diversidade e heterogeneidade de tarefas e modalidades. Uma solução promissora é a unificação, permitindo o suporte a uma miríade de tarefas e modalidades dentro de um único framework unificado. Embora poucos modelos grandes (por exemplo, Flamingo (Alayrac et al., 2022), treinados em conjuntos de dados massivos, possam suportar mais de duas modalidades, os modelos unificados atuais de pequena a média escala ainda estão limitados a 2 modalidades, geralmente imagem-texto ou vídeo-texto. A pergunta que fazemos é: é possível construir de forma eficiente um modelo unificado que possa suportar todas as modalidades? Para responder a isso, propomos o UnIVAL, um passo adiante em direção a esse objetivo ambicioso. Sem depender de tamanhos extravagantes de conjuntos de dados ou modelos com bilhões de parâmetros, o modelo UnIVAL de ~0,25B de parâmetros vai além de duas modalidades e unifica texto, imagens, vídeo e áudio em um único modelo. Nosso modelo é pré-treinado de forma eficiente em muitas tarefas, com base no balanceamento de tarefas e no aprendizado curricular multimodal. O UnIVAL mostra desempenho competitivo em relação às abordagens state-of-the-art existentes, em tarefas de imagem e vídeo-texto. As representações de características aprendidas a partir das modalidades de imagem e vídeo-texto permitem que o modelo alcance desempenho competitivo quando ajustado em tarefas de áudio-texto, apesar de não ter sido pré-treinado em áudio. Graças ao modelo unificado, propomos um novo estudo sobre a fusão de modelos multimodais por meio da interpolação de pesos de modelos treinados em diferentes tarefas multimodais, mostrando seus benefícios, em particular, para a generalização fora da distribuição. Por fim, motivamos a unificação ao mostrar a sinergia entre as tarefas. Os pesos do modelo e o código são disponibilizados aqui: https://github.com/mshukor/UnIVAL.
English
Large Language Models (LLMs) have made the ambitious quest for generalist
agents significantly far from being a fantasy. A key hurdle for building such
general models is the diversity and heterogeneity of tasks and modalities. A
promising solution is unification, allowing the support of a myriad of tasks
and modalities within one unified framework. While few large models (e.g.,
Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more
than two modalities, current small to mid-scale unified models are still
limited to 2 modalities, usually image-text or video-text. The question that we
ask is: is it possible to build efficiently a unified model that can support
all modalities? To answer this, we propose UnIVAL, a step further towards this
ambitious goal. Without relying on fancy datasets sizes or models with billions
of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities
and unifies text, images, video, and audio into a single model. Our model is
efficiently pretrained on many tasks, based on task balancing and multimodal
curriculum learning. UnIVAL shows competitive performance to existing
state-of-the-art approaches, across image and video-text tasks. The feature
representations learned from image and video-text modalities, allows the model
to achieve competitive performance when finetuned on audio-text tasks, despite
not being pretrained on audio. Thanks to the unified model, we propose a novel
study on multimodal model merging via weight interpolation of models trained on
different multimodal tasks, showing their benefits in particular for
out-of-distribution generalization. Finally, we motivate unification by showing
the synergy between tasks. The model weights and code are released here:
https://github.com/mshukor/UnIVAL.