Mirasol3B: Un modello autoregressivo multimodale per modalità allineate temporalmente e contestuali
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
November 9, 2023
Autori: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI
Abstract
Una delle principali sfide dell'apprendimento multimodale è la necessità di combinare modalità eterogenee (ad esempio, video, audio, testo). Ad esempio, video e audio vengono acquisiti a frequenze molto più elevate rispetto al testo e sono approssimativamente allineati nel tempo. Spesso non sono sincronizzati con il testo, che arriva come contesto globale, ad esempio un titolo o una descrizione. Inoltre, gli input video e audio hanno volumi molto più grandi e crescono con l'aumento della durata del video, il che richiede naturalmente più risorse di calcolo dedicate a queste modalità e rende più difficile la modellazione delle dipendenze a lungo raggio.
Qui separiamo la modellazione multimodale, dividendola in modelli autoregressivi separati e focalizzati, che elaborano gli input in base alle caratteristiche delle modalità. Proponiamo un modello multimodale, chiamato Mirasol3B, costituito da un componente autoregressivo per le modalità sincronizzate nel tempo (audio e video) e un componente autoregressivo per le modalità di contesto che non sono necessariamente allineate nel tempo ma sono comunque sequenziali. Per affrontare le sequenze lunghe degli input video-audio, proponiamo di suddividere ulteriormente le sequenze video e audio in snippet consecutivi e di elaborare autoregressivamente le loro rappresentazioni. A tal fine, proponiamo un meccanismo Combiner, che modella congiuntamente le informazioni audio-video all'interno di un intervallo di tempo. Il Combiner impara a estrarre caratteristiche audio e video da segnali spazio-temporali grezzi, e poi impara a fondere queste caratteristiche producendo rappresentazioni compatte ma espressive per ogni snippet.
Il nostro approccio raggiunge lo stato dell'arte su benchmark multimodali consolidati, superando modelli molto più grandi. Affronta efficacemente l'elevata domanda computazionale degli input multimediali sia apprendendo rappresentazioni compatte, controllando la lunghezza della sequenza delle rappresentazioni delle caratteristiche audio-video, sia modellando le loro dipendenze nel tempo.
English
One of the main challenges of multimodal learning is the need to combine
heterogeneous modalities (e.g., video, audio, text). For example, video and
audio are obtained at much higher rates than text and are roughly aligned in
time. They are often not synchronized with text, which comes as a global
context, e.g., a title, or a description. Furthermore, video and audio inputs
are of much larger volumes, and grow as the video length increases, which
naturally requires more compute dedicated to these modalities and makes
modeling of long-range dependencies harder.
We here decouple the multimodal modeling, dividing it into separate, focused
autoregressive models, processing the inputs according to the characteristics
of the modalities. We propose a multimodal model, called Mirasol3B, consisting
of an autoregressive component for the time-synchronized modalities (audio and
video), and an autoregressive component for the context modalities which are
not necessarily aligned in time but are still sequential. To address the
long-sequences of the video-audio inputs, we propose to further partition the
video and audio sequences in consecutive snippets and autoregressively process
their representations. To that end, we propose a Combiner mechanism, which
models the audio-video information jointly within a timeframe. The Combiner
learns to extract audio and video features from raw spatio-temporal signals,
and then learns to fuse these features producing compact but expressive
representations per snippet.
Our approach achieves the state-of-the-art on well established multimodal
benchmarks, outperforming much larger models. It effectively addresses the high
computational demand of media inputs by both learning compact representations,
controlling the sequence length of the audio-video feature representations, and
modeling their dependencies in time.