ChatPaper.aiChatPaper

OMCAT : Transformateur Omniscient Contextuel

OMCAT: Omni Context Aware Transformer

October 15, 2024
Auteurs: Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont réalisé des progrès significatifs dans la génération et la compréhension de texte, avec des avancées récentes s'étendant aux LLMs multimodaux qui intègrent des entrées visuelles et audio. Cependant, ces modèles continuent de rencontrer des difficultés avec la compréhension temporelle fine et croisée entre les modalités, en particulier lors de la corrélation des événements à travers les flux audio et vidéo. Nous abordons ces défis avec deux contributions majeures : un nouveau jeu de données et un modèle, appelés respectivement OCTAV et OMCAT. OCTAV (Omni Context and Temporal Audio Video) est un jeu de données novateur conçu pour capturer les transitions d'événements à travers l'audio et la vidéo. Ensuite, OMCAT (Omni Context Aware Transformer) est un modèle puissant qui exploite les RoTE (Rotary Time Embeddings), une extension innovante des RoPE, pour améliorer l'ancrage temporel et l'efficacité computationnelle dans les tâches ancrées dans le temps. À travers un pipeline d'entraînement en trois étapes robuste - alignement des caractéristiques, ajustement des instructions et entraînement spécifique à OCTAV - OMCAT excelle dans la compréhension temporelle croisée entre les modalités. Notre modèle démontre des performances de pointe sur les tâches de Question-Réponse Audio-Visuelle (AVQA) et le benchmark OCTAV, mettant en avant des gains significatifs en raisonnement temporel et en alignement croisé entre les modalités, comme validé à travers des expériences complètes et des études d'ablation. Notre jeu de données et notre code seront rendus disponibles publiquement. Le lien vers notre page de démonstration est https://om-cat.github.io.
English
Large Language Models (LLMs) have made significant strides in text generation and comprehension, with recent advancements extending into multimodal LLMs that integrate visual and audio inputs. However, these models continue to struggle with fine-grained, cross-modal temporal understanding, particularly when correlating events across audio and video streams. We address these challenges with two key contributions: a new dataset and model, called OCTAV and OMCAT respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset designed to capture event transitions across audio and video. Second, OMCAT (Omni Context Aware Transformer) is a powerful model that leverages RoTE (Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal grounding and computational efficiency in time-anchored tasks. Through a robust three-stage training pipeline-feature alignment, instruction tuning, and OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our model demonstrates state-of-the-art performance on Audio-Visual Question Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in temporal reasoning and cross-modal alignment, as validated through comprehensive experiments and ablation studies. Our dataset and code will be made publicly available. The link to our demo page is https://om-cat.github.io.

Summary

AI-Generated Summary

PDF42November 16, 2024