Modello Unificato per Compiti di Immagini, Video, Audio e Linguaggio

Abstract

I Large Language Model (LLM) hanno reso l'ambiziosa ricerca di agenti generalisti significativamente lontana dall'essere una fantasia. Un ostacolo chiave per la costruzione di tali modelli generali è la diversità e l'eterogeneità dei compiti e delle modalità. Una soluzione promettente è l'unificazione, che consente di supportare una miriade di compiti e modalità all'interno di un unico framework. Sebbene pochi modelli di grandi dimensioni (ad esempio, Flamingo (Alayrac et al., 2022), addestrati su enormi dataset, possano supportare più di due modalità, gli attuali modelli unificati di piccole e medie dimensioni sono ancora limitati a 2 modalità, solitamente immagine-testo o video-testo. La domanda che ci poniamo è: è possibile costruire in modo efficiente un modello unificato che possa supportare tutte le modalità? Per rispondere a questo, proponiamo UnIVAL, un passo avanti verso questo obiettivo ambizioso. Senza fare affidamento su dimensioni di dataset stravaganti o modelli con miliardi di parametri, il modello UnIVAL da ~0,25 miliardi di parametri va oltre due modalità e unisce testo, immagini, video e audio in un unico modello. Il nostro modello è pre-addestrato in modo efficiente su molti compiti, basandosi sul bilanciamento dei compiti e sull'apprendimento curriculare multimodale. UnIVAL mostra prestazioni competitive rispetto agli approcci all'avanguardia esistenti, nei compiti di immagine e video-testo. Le rappresentazioni delle caratteristiche apprese dalle modalità immagine e video-testo consentono al modello di ottenere prestazioni competitive quando viene messo a punto su compiti audio-testo, nonostante non sia stato pre-addestrato sull'audio. Grazie al modello unificato, proponiamo uno studio innovativo sulla fusione di modelli multimodali tramite interpolazione di pesi di modelli addestrati su diversi compiti multimodali, mostrando i loro benefici in particolare per la generalizzazione fuori distribuzione. Infine, motiviamo l'unificazione mostrando la sinergia tra i compiti. I pesi del modello e il codice sono rilasciati qui: https://github.com/mshukor/UnIVAL.

English

Large Language Models (LLMs) have made the ambitious quest for generalist agents significantly far from being a fantasy. A key hurdle for building such general models is the diversity and heterogeneity of tasks and modalities. A promising solution is unification, allowing the support of a myriad of tasks and modalities within one unified framework. While few large models (e.g., Flamingo (Alayrac et al., 2022), trained on massive datasets, can support more than two modalities, current small to mid-scale unified models are still limited to 2 modalities, usually image-text or video-text. The question that we ask is: is it possible to build efficiently a unified model that can support all modalities? To answer this, we propose UnIVAL, a step further towards this ambitious goal. Without relying on fancy datasets sizes or models with billions of parameters, the ~ 0.25B parameter UnIVAL model goes beyond two modalities and unifies text, images, video, and audio into a single model. Our model is efficiently pretrained on many tasks, based on task balancing and multimodal curriculum learning. UnIVAL shows competitive performance to existing state-of-the-art approaches, across image and video-text tasks. The feature representations learned from image and video-text modalities, allows the model to achieve competitive performance when finetuned on audio-text tasks, despite not being pretrained on audio. Thanks to the unified model, we propose a novel study on multimodal model merging via weight interpolation of models trained on different multimodal tasks, showing their benefits in particular for out-of-distribution generalization. Finally, we motivate unification by showing the synergy between tasks. The model weights and code are released here: https://github.com/mshukor/UnIVAL.

Modello Unificato per Compiti di Immagini, Video, Audio e Linguaggio

Unified Model for Image, Video, Audio and Language Tasks

Abstract

Support