Mirasol3B: Мультимодальная авторегрессионная модель для временно согласованных и контекстуальных модальностей
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities
November 9, 2023
Авторы: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI
Аннотация
Одной из основных проблем мультимодального обучения является необходимость объединения разнородных модальностей (например, видео, аудио, текст). Например, видео и аудио получаются с гораздо более высокой частотой, чем текст, и примерно синхронизированы во времени. Однако они часто не синхронизированы с текстом, который предоставляется в виде глобального контекста, например, заголовка или описания. Кроме того, объемы видео- и аудиовходов значительно больше и увеличиваются с продолжительностью видео, что естественным образом требует больше вычислительных ресурсов для обработки этих модальностей и усложняет моделирование долгосрочных зависимостей.
Мы предлагаем разделить мультимодальное моделирование, разбив его на отдельные авторегрессивные модели, которые обрабатывают входные данные в соответствии с характеристиками модальностей. Мы представляем мультимодальную модель под названием Mirasol3B, состоящую из авторегрессивного компонента для временно синхронизированных модальностей (аудио и видео) и авторегрессивного компонента для контекстных модальностей, которые не обязательно синхронизированы во времени, но остаются последовательными. Для обработки длинных последовательностей видео- и аудиовходов мы предлагаем дополнительно разделить видео- и аудиопоследовательности на последовательные фрагменты и авторегрессивно обрабатывать их представления. Для этого мы предлагаем механизм Combiner, который моделирует аудио- и видеоинформацию совместно в пределах временного интервала. Combiner обучается извлекать аудио- и видеофункции из исходных пространственно-временных сигналов, а затем обучается объединять эти функции, создавая компактные, но выразительные представления для каждого фрагмента.
Наш подход достигает наилучших результатов на хорошо зарекомендовавших себя мультимодальных тестах, превосходя гораздо более крупные модели. Он эффективно решает проблему высоких вычислительных требований медиа-входов, обучая компактные представления, контролируя длину последовательностей аудио- и видеопризнаков и моделируя их временные зависимости.
English
One of the main challenges of multimodal learning is the need to combine
heterogeneous modalities (e.g., video, audio, text). For example, video and
audio are obtained at much higher rates than text and are roughly aligned in
time. They are often not synchronized with text, which comes as a global
context, e.g., a title, or a description. Furthermore, video and audio inputs
are of much larger volumes, and grow as the video length increases, which
naturally requires more compute dedicated to these modalities and makes
modeling of long-range dependencies harder.
We here decouple the multimodal modeling, dividing it into separate, focused
autoregressive models, processing the inputs according to the characteristics
of the modalities. We propose a multimodal model, called Mirasol3B, consisting
of an autoregressive component for the time-synchronized modalities (audio and
video), and an autoregressive component for the context modalities which are
not necessarily aligned in time but are still sequential. To address the
long-sequences of the video-audio inputs, we propose to further partition the
video and audio sequences in consecutive snippets and autoregressively process
their representations. To that end, we propose a Combiner mechanism, which
models the audio-video information jointly within a timeframe. The Combiner
learns to extract audio and video features from raw spatio-temporal signals,
and then learns to fuse these features producing compact but expressive
representations per snippet.
Our approach achieves the state-of-the-art on well established multimodal
benchmarks, outperforming much larger models. It effectively addresses the high
computational demand of media inputs by both learning compact representations,
controlling the sequence length of the audio-video feature representations, and
modeling their dependencies in time.