ChatPaper.aiChatPaper

Mirasol3B : Un modèle autorégressif multimodal pour des modalités synchronisées et contextuelles

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

November 9, 2023
Auteurs: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI

Résumé

L'un des principaux défis de l'apprentissage multimodal réside dans la nécessité de combiner des modalités hétérogènes (par exemple, vidéo, audio, texte). Par exemple, la vidéo et l'audio sont obtenus à des taux bien plus élevés que le texte et sont globalement alignés dans le temps. Cependant, ils ne sont souvent pas synchronisés avec le texte, qui est généralement fourni comme un contexte global, tel qu'un titre ou une description. De plus, les entrées vidéo et audio ont des volumes bien plus importants, qui augmentent avec la durée de la vidéo, ce qui nécessite naturellement plus de ressources de calcul dédiées à ces modalités et rend la modélisation des dépendances à long terme plus complexe. Nous découplons ici la modélisation multimodale en la divisant en modèles autorégressifs distincts et spécialisés, traitant les entrées en fonction des caractéristiques des modalités. Nous proposons un modèle multimodal, appelé Mirasol3B, composé d'un module autorégressif pour les modalités synchronisées dans le temps (audio et vidéo), et d'un autre module autorégressif pour les modalités contextuelles qui ne sont pas nécessairement alignées dans le temps mais restent séquentielles. Pour gérer les longues séquences des entrées vidéo-audio, nous proposons de partitionner davantage les séquences vidéo et audio en segments consécutifs et de traiter leurs représentations de manière autorégressive. À cette fin, nous introduisons un mécanisme appelé Combiner, qui modélise conjointement les informations audio et vidéo dans un intervalle de temps donné. Le Combiner apprend à extraire des caractéristiques audio et vidéo à partir des signaux spatio-temporels bruts, puis à fusionner ces caractéristiques pour produire des représentations compactes mais expressives par segment. Notre approche atteint l'état de l'art sur des benchmarks multimodaux bien établis, surpassant des modèles bien plus volumineux. Elle répond efficacement à la forte demande computationnelle des entrées multimédias en apprenant des représentations compactes, en contrôlant la longueur des séquences des représentations des caractéristiques audio-vidéo, et en modélisant leurs dépendances temporelles.
English
One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
PDF141December 15, 2024