ChatPaper.aiChatPaper

Mirasol3B: Een multimodaal autoregressief model voor tijdgebonden en contextuele modaliteiten

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

November 9, 2023
Auteurs: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI

Samenvatting

Een van de belangrijkste uitdagingen van multimodaal leren is de noodzaak om heterogene modaliteiten (bijvoorbeeld video, audio, tekst) te combineren. Video en audio worden bijvoorbeeld met een veel hogere snelheid verkregen dan tekst en zijn ruwweg in de tijd uitgelijnd. Ze zijn vaak niet gesynchroniseerd met tekst, die als een globale context wordt aangeleverd, zoals een titel of een beschrijving. Bovendien hebben video- en audio-inputs een veel groter volume en nemen ze toe naarmate de videolengte toeneemt, wat van nature meer rekenkracht vereist die aan deze modaliteiten wordt besteed en het modelleren van afhankelijkheden over lange afstand moeilijker maakt. Hier ontkoppelen we het multimodale modelleren door het op te delen in afzonderlijke, gerichte autoregressieve modellen die de inputs verwerken volgens de kenmerken van de modaliteiten. We stellen een multimodaal model voor, genaamd Mirasol3B, dat bestaat uit een autoregressieve component voor de in de tijd gesynchroniseerde modaliteiten (audio en video) en een autoregressieve component voor de contextmodaliteiten die niet noodzakelijk in de tijd zijn uitgelijnd maar wel sequentieel zijn. Om de lange sequenties van de video-audio-inputs aan te pakken, stellen we voor om de video- en audiosequenties verder op te delen in opeenvolgende fragmenten en hun representaties autoregressief te verwerken. Hiertoe stellen we een Combiner-mechanisme voor, dat de audio-video-informatie gezamenlijk binnen een tijdsframe modelleert. De Combiner leert om audio- en videokenmerken te extraheren uit ruwe ruimtelijk-temporele signalen en leert vervolgens om deze kenmerken te fuseren, waardoor compacte maar expressieve representaties per fragment worden geproduceerd. Onze aanpak behaalt de state-of-the-art op goed gevestigde multimodale benchmarks en overtreft veel grotere modellen. Het adresseert effectief de hoge computationele eisen van media-inputs door zowel compacte representaties te leren, de sequentielengte van de audio-videokenmerkrepresentaties te beheersen als hun afhankelijkheden in de tijd te modelleren.
English
One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
PDF141December 15, 2024