Unificatiemodel voor beeld-, video-, audio- en taal-taken

Samenvatting

Grote Taalmodellen (LLMs) hebben de ambitieuze zoektocht naar generalistische agents aanzienlijk dichterbij gebracht en het is niet langer een fantasie. Een belangrijke hindernis bij het bouwen van dergelijke algemene modellen is de diversiteit en heterogeniteit van taken en modaliteiten. Een veelbelovende oplossing is unificatie, waardoor een breed scala aan taken en modaliteiten binnen één uniform raamwerk ondersteund kan worden. Hoewel enkele grote modellen (bijvoorbeeld Flamingo (Alayrac et al., 2022), getraind op enorme datasets, meer dan twee modaliteiten kunnen ondersteunen, zijn huidige kleine tot middelgrote unificatiemodellen nog steeds beperkt tot 2 modaliteiten, meestal beeld-tekst of video-tekst. De vraag die we stellen is: is het mogelijk om efficiënt een unificatiemodel te bouwen dat alle modaliteiten kan ondersteunen? Om dit te beantwoorden, stellen we UnIVAL voor, een stap verder in de richting van dit ambitieuze doel. Zonder te vertrouwen op enorme datasets of modellen met miljarden parameters, gaat het ~0,25B parameter UnIVAL-model verder dan twee modaliteiten en verenigt het tekst, afbeeldingen, video en audio in één model. Ons model wordt efficiënt voorgetraind op vele taken, gebaseerd op taakbalancering en multimodale curriculumlearning. UnIVAL toont competitieve prestaties ten opzichte van bestaande state-of-the-art benaderingen, over beeld- en video-tekst taken. De kenmerkrepresentaties die zijn geleerd van beeld- en video-tekst modaliteiten, stellen het model in staat om competitieve prestaties te behalen wanneer het wordt gefinetuned op audio-tekst taken, ondanks dat het niet is voorgetraind op audio. Dankzij het unificatiemodel stellen we een nieuwe studie voor over multimodale modelmerging via gewichtsinterpolatie van modellen die zijn getraind op verschillende multimodale taken, waarbij we de voordelen ervan aantonen, met name voor out-of-distribution generalisatie. Ten slotte motiveren we unificatie door de synergie tussen taken te laten zien. De modelgewichten en code zijn hier vrijgegeven: https://github.com/mshukor/UnIVAL.

English

Large Language Models (LLMs) have made the ambitious quest for generalist agents significantly far from being a fantasy. A key hurdle for building such general models is the diversity and heterogeneity of tasks and modalities. A promising solution is unification, allowing the support of a myriad of tasks and modalities within one unified framework. While few large models (e.g., Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more than two modalities, current small to mid-scale unified models are still limited to 2 modalities, usually image-text or video-text. The question that we ask is: is it possible to build efficiently a unified model that can support all modalities? To answer this, we propose UnIVAL, a step further towards this ambitious goal. Without relying on fancy datasets sizes or models with billions of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities and unifies text, images, video, and audio into a single model. Our model is efficiently pretrained on many tasks, based on task balancing and multimodal curriculum learning. UnIVAL shows competitive performance to existing state-of-the-art approaches, across image and video-text tasks. The feature representations learned from image and video-text modalities, allows the model to achieve competitive performance when finetuned on audio-text tasks, despite not being pretrained on audio. Thanks to the unified model, we propose a novel study on multimodal model merging via weight interpolation of models trained on different multimodal tasks, showing their benefits in particular for out-of-distribution generalization. Finally, we motivate unification by showing the synergy between tasks. The model weights and code are released here: https://github.com/mshukor/UnIVAL.

Unificatiemodel voor beeld-, video-, audio- en taal-taken

Unified Model for Image, Video, Audio and Language Tasks

Samenvatting

Support