Mirasol3B: Um modelo autoregressivo multimodal para modalidades temporalmente alinhadas e contextuais
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
November 9, 2023
Autores: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI
Resumo
Um dos principais desafios da aprendizagem multimodal é a necessidade de combinar modalidades heterogêneas (por exemplo, vídeo, áudio, texto). Por exemplo, vídeo e áudio são obtidos em taxas muito mais altas do que o texto e estão aproximadamente alinhados no tempo. Eles frequentemente não estão sincronizados com o texto, que vem como um contexto global, por exemplo, um título ou uma descrição. Além disso, as entradas de vídeo e áudio têm volumes muito maiores e aumentam conforme a duração do vídeo cresce, o que naturalmente requer mais capacidade computacional dedicada a essas modalidades e torna a modelagem de dependências de longo alcance mais difícil.
Aqui, desacoplamos a modelagem multimodal, dividindo-a em modelos autorregressivos separados e focados, processando as entradas de acordo com as características das modalidades. Propomos um modelo multimodal, chamado Mirasol3B, composto por um componente autorregressivo para as modalidades sincronizadas no tempo (áudio e vídeo) e um componente autorregressivo para as modalidades de contexto, que não estão necessariamente alinhadas no tempo, mas ainda são sequenciais. Para lidar com as sequências longas das entradas de vídeo e áudio, propomos particionar ainda mais as sequências de vídeo e áudio em trechos consecutivos e processar suas representações de forma autorregressiva. Para isso, propomos um mecanismo Combiner, que modela as informações de áudio e vídeo conjuntamente dentro de um intervalo de tempo. O Combiner aprende a extrair características de áudio e vídeo a partir de sinais espaço-temporais brutos e, em seguida, aprende a fundir essas características, produzindo representações compactas, mas expressivas, por trecho.
Nossa abordagem alcança o estado da arte em benchmarks multimodais bem estabelecidos, superando modelos muito maiores. Ela aborda efetivamente a alta demanda computacional das entradas de mídia, tanto aprendendo representações compactas, controlando o comprimento da sequência das representações de características de áudio e vídeo, quanto modelando suas dependências no tempo.
English
One of the main challenges of multimodal learning is the need to combine
heterogeneous modalities (e.g., video, audio, text). For example, video and
audio are obtained at much higher rates than text and are roughly aligned in
time. They are often not synchronized with text, which comes as a global
context, e.g., a title, or a description. Furthermore, video and audio inputs
are of much larger volumes, and grow as the video length increases, which
naturally requires more compute dedicated to these modalities and makes
modeling of long-range dependencies harder.
We here decouple the multimodal modeling, dividing it into separate, focused
autoregressive models, processing the inputs according to the characteristics
of the modalities. We propose a multimodal model, called Mirasol3B, consisting
of an autoregressive component for the time-synchronized modalities (audio and
video), and an autoregressive component for the context modalities which are
not necessarily aligned in time but are still sequential. To address the
long-sequences of the video-audio inputs, we propose to further partition the
video and audio sequences in consecutive snippets and autoregressively process
their representations. To that end, we propose a Combiner mechanism, which
models the audio-video information jointly within a timeframe. The Combiner
learns to extract audio and video features from raw spatio-temporal signals,
and then learns to fuse these features producing compact but expressive
representations per snippet.
Our approach achieves the state-of-the-art on well established multimodal
benchmarks, outperforming much larger models. It effectively addresses the high
computational demand of media inputs by both learning compact representations,
controlling the sequence length of the audio-video feature representations, and
modeling their dependencies in time.