Mirasol3B: Un modelo autorregresivo multimodal para modalidades alineadas temporalmente y contextuales
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
November 9, 2023
Autores: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI
Resumen
Uno de los principales desafíos del aprendizaje multimodal es la necesidad de combinar modalidades heterogéneas (por ejemplo, video, audio, texto). Por ejemplo, el video y el audio se obtienen a tasas mucho más altas que el texto y están aproximadamente alineados en el tiempo. A menudo no están sincronizados con el texto, que aparece como un contexto global, por ejemplo, un título o una descripción. Además, las entradas de video y audio tienen volúmenes mucho mayores y crecen a medida que aumenta la duración del video, lo que naturalmente requiere más capacidad de cómputo dedicada a estas modalidades y dificulta el modelado de dependencias de largo alcance.
Aquí desacoplamos el modelado multimodal, dividiéndolo en modelos autorregresivos separados y especializados, que procesan las entradas según las características de las modalidades. Proponemos un modelo multimodal, llamado Mirasol3B, que consta de un componente autorregresivo para las modalidades sincronizadas en el tiempo (audio y video) y un componente autorregresivo para las modalidades de contexto que no están necesariamente alineadas en el tiempo pero que siguen siendo secuenciales. Para abordar las secuencias largas de las entradas de video y audio, proponemos dividir aún más las secuencias de video y audio en fragmentos consecutivos y procesar autorregresivamente sus representaciones. Para ello, proponemos un mecanismo llamado Combiner, que modela la información de audio y video de manera conjunta dentro de un marco de tiempo. El Combiner aprende a extraer características de audio y video a partir de señales espacio-temporales crudas, y luego aprende a fusionar estas características produciendo representaciones compactas pero expresivas por fragmento.
Nuestro enfoque alcanza el estado del arte en benchmarks multimodales bien establecidos, superando a modelos mucho más grandes. Aborda de manera efectiva la alta demanda computacional de las entradas multimedia tanto al aprender representaciones compactas, controlar la longitud de las secuencias de las representaciones de características de audio y video, como al modelar sus dependencias en el tiempo.
English
One of the main challenges of multimodal learning is the need to combine
heterogeneous modalities (e.g., video, audio, text). For example, video and
audio are obtained at much higher rates than text and are roughly aligned in
time. They are often not synchronized with text, which comes as a global
context, e.g., a title, or a description. Furthermore, video and audio inputs
are of much larger volumes, and grow as the video length increases, which
naturally requires more compute dedicated to these modalities and makes
modeling of long-range dependencies harder.
We here decouple the multimodal modeling, dividing it into separate, focused
autoregressive models, processing the inputs according to the characteristics
of the modalities. We propose a multimodal model, called Mirasol3B, consisting
of an autoregressive component for the time-synchronized modalities (audio and
video), and an autoregressive component for the context modalities which are
not necessarily aligned in time but are still sequential. To address the
long-sequences of the video-audio inputs, we propose to further partition the
video and audio sequences in consecutive snippets and autoregressively process
their representations. To that end, we propose a Combiner mechanism, which
models the audio-video information jointly within a timeframe. The Combiner
learns to extract audio and video features from raw spatio-temporal signals,
and then learns to fuse these features producing compact but expressive
representations per snippet.
Our approach achieves the state-of-the-art on well established multimodal
benchmarks, outperforming much larger models. It effectively addresses the high
computational demand of media inputs by both learning compact representations,
controlling the sequence length of the audio-video feature representations, and
modeling their dependencies in time.