ChatPaper.aiChatPaper

Modelo Unificado para Tareas de Imagen, Video, Audio y Lenguaje

Unified Model for Image, Video, Audio and Language Tasks

July 30, 2023
Autores: Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han acercado significativamente la ambiciosa búsqueda de agentes generalistas a la realidad, alejándola de ser una mera fantasía. Un obstáculo clave para construir tales modelos generales es la diversidad y heterogeneidad de tareas y modalidades. Una solución prometedora es la unificación, que permite soportar una miríada de tareas y modalidades dentro de un marco unificado. Aunque algunos modelos grandes (por ejemplo, Flamingo (Alayrac et al., 2022), entrenados en conjuntos de datos masivos, pueden soportar más de dos modalidades, los modelos unificados actuales de pequeña a mediana escala aún se limitan a 2 modalidades, generalmente imagen-texto o video-texto. La pregunta que nos hacemos es: ¿es posible construir de manera eficiente un modelo unificado que pueda soportar todas las modalidades? Para responder a esto, proponemos UnIVAL, un paso más hacia este ambicioso objetivo. Sin depender de tamaños de conjuntos de datos extravagantes o modelos con miles de millones de parámetros, el modelo UnIVAL de ~0.25B parámetros va más allá de dos modalidades y unifica texto, imágenes, video y audio en un solo modelo. Nuestro modelo se entrena de manera eficiente en muchas tareas, basándose en el equilibrio de tareas y el aprendizaje curricular multimodal. UnIVAL muestra un rendimiento competitivo frente a los enfoques más avanzados existentes, en tareas de imagen y video-texto. Las representaciones de características aprendidas de las modalidades de imagen y video-texto permiten que el modelo logre un rendimiento competitivo cuando se ajusta en tareas de audio-texto, a pesar de no haber sido preentrenado en audio. Gracias al modelo unificado, proponemos un estudio novedoso sobre la fusión de modelos multimodales mediante la interpolación de pesos de modelos entrenados en diferentes tareas multimodales, mostrando sus beneficios, en particular, para la generalización fuera de distribución. Finalmente, motivamos la unificación mostrando la sinergia entre tareas. Los pesos del modelo y el código se publican aquí: https://github.com/mshukor/UnIVAL.
English
Large Language Models (LLMs) have made the ambitious quest for generalist agents significantly far from being a fantasy. A key hurdle for building such general models is the diversity and heterogeneity of tasks and modalities. A promising solution is unification, allowing the support of a myriad of tasks and modalities within one unified framework. While few large models (e.g., Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more than two modalities, current small to mid-scale unified models are still limited to 2 modalities, usually image-text or video-text. The question that we ask is: is it possible to build efficiently a unified model that can support all modalities? To answer this, we propose UnIVAL, a step further towards this ambitious goal. Without relying on fancy datasets sizes or models with billions of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities and unifies text, images, video, and audio into a single model. Our model is efficiently pretrained on many tasks, based on task balancing and multimodal curriculum learning. UnIVAL shows competitive performance to existing state-of-the-art approaches, across image and video-text tasks. The feature representations learned from image and video-text modalities, allows the model to achieve competitive performance when finetuned on audio-text tasks, despite not being pretrained on audio. Thanks to the unified model, we propose a novel study on multimodal model merging via weight interpolation of models trained on different multimodal tasks, showing their benefits in particular for out-of-distribution generalization. Finally, we motivate unification by showing the synergy between tasks. The model weights and code are released here: https://github.com/mshukor/UnIVAL.
PDF151December 15, 2024