Унифицированная модель для задач обработки изображений, видео, аудио и текста
Unified Model for Image, Video, Audio and Language Tasks
July 30, 2023
Авторы: Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord
cs.AI
Аннотация
Крупные языковые модели (LLMs) значительно приблизили амбициозную цель создания универсальных агентов, сделав её далёкой от фантазии. Одним из ключевых препятствий для построения таких универсальных моделей является разнообразие и гетерогенность задач и модальностей. Перспективным решением является унификация, позволяющая поддерживать множество задач и модальностей в рамках единой структуры. Хотя некоторые крупные модели (например, Flamingo (Alayrac et al., 2022)), обученные на огромных наборах данных, могут поддерживать более двух модальностей, текущие небольшие и средние унифицированные модели всё ещё ограничены двумя модальностями, обычно текст-изображение или текст-видео. Вопрос, который мы задаём: возможно ли эффективно построить унифицированную модель, способную поддерживать все модальности? Чтобы ответить на него, мы предлагаем UnIVAL — шаг вперёд к этой амбициозной цели. Без использования огромных наборов данных или моделей с миллиардами параметров, модель UnIVAL с ~0,25 миллиардами параметров выходит за пределы двух модальностей и объединяет текст, изображения, видео и аудио в единую модель. Наша модель эффективно предобучается на множестве задач, основываясь на балансировке задач и мультимодальном обучении по учебному плану. UnIVAL демонстрирует конкурентоспособные результаты по сравнению с современными подходами в задачах, связанных с изображениями и текстом, а также видео и текстом. Особенности, извлечённые из модальностей текст-изображение и текст-видео, позволяют модели достигать конкурентоспособных результатов при дообучении на задачах текст-аудио, несмотря на отсутствие предварительного обучения на аудио. Благодаря унифицированной модели мы предлагаем новое исследование по объединению мультимодальных моделей через интерполяцию весов моделей, обученных на различных мультимодальных задачах, демонстрируя их преимущества, особенно для обобщения на данных, выходящих за пределы распределения. Наконец, мы обосновываем унификацию, показывая синергию между задачами. Веса модели и код доступны по ссылке: https://github.com/mshukor/UnIVAL.
English
Large Language Models (LLMs) have made the ambitious quest for generalist
agents significantly far from being a fantasy. A key hurdle for building such
general models is the diversity and heterogeneity of tasks and modalities. A
promising solution is unification, allowing the support of a myriad of tasks
and modalities within one unified framework. While few large models (e.g.,
Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more
than two modalities, current small to mid-scale unified models are still
limited to 2 modalities, usually image-text or video-text. The question that we
ask is: is it possible to build efficiently a unified model that can support
all modalities? To answer this, we propose UnIVAL, a step further towards this
ambitious goal. Without relying on fancy datasets sizes or models with billions
of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities
and unifies text, images, video, and audio into a single model. Our model is
efficiently pretrained on many tasks, based on task balancing and multimodal
curriculum learning. UnIVAL shows competitive performance to existing
state-of-the-art approaches, across image and video-text tasks. The feature
representations learned from image and video-text modalities, allows the model
to achieve competitive performance when finetuned on audio-text tasks, despite
not being pretrained on audio. Thanks to the unified model, we propose a novel
study on multimodal model merging via weight interpolation of models trained on
different multimodal tasks, showing their benefits in particular for
out-of-distribution generalization. Finally, we motivate unification by showing
the synergy between tasks. The model weights and code are released here:
https://github.com/mshukor/UnIVAL.