ChatPaper.aiChatPaper

Mirasol3B: Ein multimodales autoregressives Modell für zeitlich ausgerichtete und kontextbezogene Modalitäten

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

November 9, 2023
Autoren: AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova
cs.AI

Zusammenfassung

Eine der Hauptherausforderungen beim multimodalen Lernen ist die Notwendigkeit, heterogene Modalitäten (z. B. Video, Audio, Text) zu kombinieren. Beispielsweise werden Video und Audio mit viel höheren Raten erfasst als Text und sind zeitlich grob synchronisiert. Sie sind jedoch oft nicht mit Text synchronisiert, der als globaler Kontext, z. B. als Titel oder Beschreibung, vorliegt. Darüber hinaus sind Video- und Audioeingaben von viel größerem Umfang und wachsen mit der Länge des Videos, was natürlicherweise mehr Rechenleistung für diese Modalitäten erfordert und die Modellierung langreichweitiger Abhängigkeiten erschwert. Wir entkoppeln hier die multimodale Modellierung, indem wir sie in separate, fokussierte autoregressive Modelle aufteilen, die die Eingaben entsprechend den Eigenschaften der Modalitäten verarbeiten. Wir schlagen ein multimodales Modell namens Mirasol3B vor, das aus einer autoregressiven Komponente für die zeitlich synchronisierten Modalitäten (Audio und Video) und einer autoregressiven Komponente für die Kontextmodalitäten besteht, die nicht unbedingt zeitlich synchronisiert, aber dennoch sequenziell sind. Um die langen Sequenzen der Video-Audio-Eingaben zu bewältigen, schlagen wir vor, die Video- und Audiosequenzen weiter in aufeinanderfolgende Ausschnitte zu unterteilen und ihre Repräsentationen autoregressiv zu verarbeiten. Zu diesem Zweck schlagen wir einen Combiner-Mechanismus vor, der die Audio-Video-Informationen gemeinsam innerhalb eines Zeitrahmens modelliert. Der Combiner lernt, Audio- und Videomerkmale aus rohen raumzeitlichen Signalen zu extrahieren und dann diese Merkmale zu fusionieren, um kompakte aber ausdrucksstarke Repräsentationen pro Ausschnitt zu erzeugen. Unser Ansatz erreicht den Stand der Technik auf etablierten multimodalen Benchmarks und übertrifft dabei viel größere Modelle. Er adressiert effektiv den hohen Rechenbedarf von Medieneingaben, indem er sowohl kompakte Repräsentationen lernt, die Sequenzlänge der Audio-Video-Merkmalrepräsentationen kontrolliert als auch ihre Abhängigkeiten in der Zeit modelliert.
English
One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
PDF141December 15, 2024