Einheitliches Modell für Bild-, Video-, Audio- und Sprachaufgaben
Unified Model for Image, Video, Audio and Language Tasks
July 30, 2023
Autoren: Mustafa Shukor, Corentin Dancette, Alexandre Rame, Matthieu Cord
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben das ehrgeizige Streben nach allgemeinen Agenten deutlich näher an die Realität gebracht. Eine zentrale Herausforderung beim Aufbau solcher allgemeiner Modelle ist die Vielfalt und Heterogenität von Aufgaben und Modalitäten. Eine vielversprechende Lösung ist die Vereinheitlichung, die die Unterstützung einer Vielzahl von Aufgaben und Modalitäten innerhalb eines einheitlichen Frameworks ermöglicht. Während einige große Modelle (z.B. Flamingo (Alayrac et al., 2022), die auf riesigen Datensätzen trainiert wurden, mehr als zwei Modalitäten unterstützen können, sind aktuelle kleinere bis mittelgroße vereinheitlichte Modelle immer noch auf zwei Modalitäten beschränkt, üblicherweise Bild-Text oder Video-Text. Die Frage, die wir stellen, lautet: Ist es möglich, effizient ein vereinheitlichtes Modell zu bauen, das alle Modalitäten unterstützen kann? Um dies zu beantworten, schlagen wir UnIVAL vor, einen weiteren Schritt in Richtung dieses ehrgeizigen Ziels. Ohne sich auf riesige Datensätze oder Modelle mit Milliarden von Parametern zu verlassen, geht das ~ 0,25 Milliarden Parameter umfassende UnIVAL-Modell über zwei Modalitäten hinaus und vereint Text, Bilder, Videos und Audio in einem einzigen Modell. Unser Modell wird effizient auf vielen Aufgaben vortrainiert, basierend auf Aufgabenausgleich und multimodalem Curriculum-Lernen. UnIVAL zeigt eine wettbewerbsfähige Leistung im Vergleich zu bestehenden state-of-the-art Ansätzen in Bild- und Video-Text-Aufgaben. Die aus Bild- und Video-Text-Modalitäten gelernten Merkmalsrepräsentationen ermöglichen es dem Modell, eine wettbewerbsfähige Leistung zu erzielen, wenn es auf Audio-Text-Aufgaben feinabgestimmt wird, obwohl es nicht auf Audio vortrainiert wurde. Dank des vereinheitlichten Modells schlagen wir eine neuartige Studie zur Verschmelzung multimodaler Modelle durch Gewichtsinterpolation von Modellen vor, die auf verschiedenen multimodalen Aufgaben trainiert wurden, und zeigen deren Vorteile insbesondere für die Generalisierung außerhalb der Verteilung. Schließlich motivieren wir die Vereinheitlichung, indem wir die Synergie zwischen Aufgaben aufzeigen. Die Modellgewichte und der Code werden hier veröffentlicht: https://github.com/mshukor/UnIVAL.
English
Large Language Models (LLMs) have made the ambitious quest for generalist
agents significantly far from being a fantasy. A key hurdle for building such
general models is the diversity and heterogeneity of tasks and modalities. A
promising solution is unification, allowing the support of a myriad of tasks
and modalities within one unified framework. While few large models (e.g.,
Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more
than two modalities, current small to mid-scale unified models are still
limited to 2 modalities, usually image-text or video-text. The question that we
ask is: is it possible to build efficiently a unified model that can support
all modalities? To answer this, we propose UnIVAL, a step further towards this
ambitious goal. Without relying on fancy datasets sizes or models with billions
of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities
and unifies text, images, video, and audio into a single model. Our model is
efficiently pretrained on many tasks, based on task balancing and multimodal
curriculum learning. UnIVAL shows competitive performance to existing
state-of-the-art approaches, across image and video-text tasks. The feature
representations learned from image and video-text modalities, allows the model
to achieve competitive performance when finetuned on audio-text tasks, despite
not being pretrained on audio. Thanks to the unified model, we propose a novel
study on multimodal model merging via weight interpolation of models trained on
different multimodal tasks, showing their benefits in particular for
out-of-distribution generalization. Finally, we motivate unification by showing
the synergy between tasks. The model weights and code are released here:
https://github.com/mshukor/UnIVAL.