OMCAT: Transformador Consciente del Contexto Omnímodo

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han avanzado significativamente en la generación y comprensión de texto, con progresos recientes que se extienden a LLMs multimodales que integran entradas visuales y de audio. Sin embargo, estos modelos siguen teniendo dificultades con la comprensión temporal detallada y cruzada entre modalidades, especialmente al correlacionar eventos a través de flujos de audio y video. Abordamos estos desafíos con dos contribuciones clave: un nuevo conjunto de datos y un modelo, llamados OCTAV y OMCAT respectivamente. OCTAV (Omni Context and Temporal Audio Video) es un conjunto de datos novedoso diseñado para capturar transiciones de eventos entre audio y video. En segundo lugar, OMCAT (Omni Context Aware Transformer) es un modelo potente que aprovecha RoTE (Incrustaciones de Tiempo Rotativas), una extensión innovadora de RoPE, para mejorar el anclaje temporal y la eficiencia computacional en tareas ancladas en el tiempo. A través de un sólido proceso de entrenamiento en tres etapas -alineación de características, ajuste de instrucciones y entrenamiento específico de OCTAV- OMCAT destaca en la comprensión temporal cruzada entre modalidades. Nuestro modelo demuestra un rendimiento de vanguardia en tareas de Preguntas y Respuestas Audiovisuales (AVQA) y en el banco de pruebas OCTAV, mostrando mejoras significativas en razonamiento temporal y alineación cruzada entre modalidades, como se valida a través de experimentos exhaustivos y estudios de ablación. Nuestro conjunto de datos y código estarán disponibles públicamente. El enlace a nuestra página de demostración es https://om-cat.github.io.

English

Large Language Models (LLMs) have made significant strides in text generation and comprehension, with recent advancements extending into multimodal LLMs that integrate visual and audio inputs. However, these models continue to struggle with fine-grained, cross-modal temporal understanding, particularly when correlating events across audio and video streams. We address these challenges with two key contributions: a new dataset and model, called OCTAV and OMCAT respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset designed to capture event transitions across audio and video. Second, OMCAT (Omni Context Aware Transformer) is a powerful model that leverages RoTE (Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal grounding and computational efficiency in time-anchored tasks. Through a robust three-stage training pipeline-feature alignment, instruction tuning, and OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our model demonstrates state-of-the-art performance on Audio-Visual Question Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in temporal reasoning and cross-modal alignment, as validated through comprehensive experiments and ablation studies. Our dataset and code will be made publicly available. The link to our demo page is https://om-cat.github.io.

OMCAT: Transformador Consciente del Contexto Omnímodo

OMCAT: Omni Context Aware Transformer

Resumen

Support