OMCAT : Transformateur Omniscient Contextuel
OMCAT: Omni Context Aware Transformer
October 15, 2024
Auteurs: Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont réalisé des progrès significatifs dans la génération et la compréhension de texte, avec des avancées récentes s'étendant aux LLMs multimodaux qui intègrent des entrées visuelles et audio. Cependant, ces modèles continuent de rencontrer des difficultés avec la compréhension temporelle fine et croisée entre les modalités, en particulier lors de la corrélation des événements à travers les flux audio et vidéo. Nous abordons ces défis avec deux contributions majeures : un nouveau jeu de données et un modèle, appelés respectivement OCTAV et OMCAT. OCTAV (Omni Context and Temporal Audio Video) est un jeu de données novateur conçu pour capturer les transitions d'événements à travers l'audio et la vidéo. Ensuite, OMCAT (Omni Context Aware Transformer) est un modèle puissant qui exploite les RoTE (Rotary Time Embeddings), une extension innovante des RoPE, pour améliorer l'ancrage temporel et l'efficacité computationnelle dans les tâches ancrées dans le temps. À travers un pipeline d'entraînement en trois étapes robuste - alignement des caractéristiques, ajustement des instructions et entraînement spécifique à OCTAV - OMCAT excelle dans la compréhension temporelle croisée entre les modalités. Notre modèle démontre des performances de pointe sur les tâches de Question-Réponse Audio-Visuelle (AVQA) et le benchmark OCTAV, mettant en avant des gains significatifs en raisonnement temporel et en alignement croisé entre les modalités, comme validé à travers des expériences complètes et des études d'ablation. Notre jeu de données et notre code seront rendus disponibles publiquement. Le lien vers notre page de démonstration est https://om-cat.github.io.
English
Large Language Models (LLMs) have made significant strides in text generation
and comprehension, with recent advancements extending into multimodal LLMs that
integrate visual and audio inputs. However, these models continue to struggle
with fine-grained, cross-modal temporal understanding, particularly when
correlating events across audio and video streams. We address these challenges
with two key contributions: a new dataset and model, called OCTAV and OMCAT
respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset
designed to capture event transitions across audio and video. Second, OMCAT
(Omni Context Aware Transformer) is a powerful model that leverages RoTE
(Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal
grounding and computational efficiency in time-anchored tasks. Through a robust
three-stage training pipeline-feature alignment, instruction tuning, and
OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our
model demonstrates state-of-the-art performance on Audio-Visual Question
Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in
temporal reasoning and cross-modal alignment, as validated through
comprehensive experiments and ablation studies. Our dataset and code will be
made publicly available. The link to our demo page is https://om-cat.github.io.Summary
AI-Generated Summary