OMCAT: Transformador Consciente del Contexto Omnímodo
OMCAT: Omni Context Aware Transformer
October 15, 2024
Autores: Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) han avanzado significativamente en la generación y comprensión de texto, con progresos recientes que se extienden a LLMs multimodales que integran entradas visuales y de audio. Sin embargo, estos modelos siguen teniendo dificultades con la comprensión temporal detallada y cruzada entre modalidades, especialmente al correlacionar eventos a través de flujos de audio y video. Abordamos estos desafíos con dos contribuciones clave: un nuevo conjunto de datos y un modelo, llamados OCTAV y OMCAT respectivamente. OCTAV (Omni Context and Temporal Audio Video) es un conjunto de datos novedoso diseñado para capturar transiciones de eventos entre audio y video. En segundo lugar, OMCAT (Omni Context Aware Transformer) es un modelo potente que aprovecha RoTE (Incrustaciones de Tiempo Rotativas), una extensión innovadora de RoPE, para mejorar el anclaje temporal y la eficiencia computacional en tareas ancladas en el tiempo. A través de un sólido proceso de entrenamiento en tres etapas -alineación de características, ajuste de instrucciones y entrenamiento específico de OCTAV- OMCAT destaca en la comprensión temporal cruzada entre modalidades. Nuestro modelo demuestra un rendimiento de vanguardia en tareas de Preguntas y Respuestas Audiovisuales (AVQA) y en el banco de pruebas OCTAV, mostrando mejoras significativas en razonamiento temporal y alineación cruzada entre modalidades, como se valida a través de experimentos exhaustivos y estudios de ablación. Nuestro conjunto de datos y código estarán disponibles públicamente. El enlace a nuestra página de demostración es https://om-cat.github.io.
English
Large Language Models (LLMs) have made significant strides in text generation
and comprehension, with recent advancements extending into multimodal LLMs that
integrate visual and audio inputs. However, these models continue to struggle
with fine-grained, cross-modal temporal understanding, particularly when
correlating events across audio and video streams. We address these challenges
with two key contributions: a new dataset and model, called OCTAV and OMCAT
respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset
designed to capture event transitions across audio and video. Second, OMCAT
(Omni Context Aware Transformer) is a powerful model that leverages RoTE
(Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal
grounding and computational efficiency in time-anchored tasks. Through a robust
three-stage training pipeline-feature alignment, instruction tuning, and
OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our
model demonstrates state-of-the-art performance on Audio-Visual Question
Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in
temporal reasoning and cross-modal alignment, as validated through
comprehensive experiments and ablation studies. Our dataset and code will be
made publicly available. The link to our demo page is https://om-cat.github.io.Summary
AI-Generated Summary