ChatPaper.aiChatPaper

OMCAT: Transformador Oni Consciente do Contexto

OMCAT: Omni Context Aware Transformer

October 15, 2024
Autores: Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente na geração e compreensão de texto, com progressos recentes se estendendo para LLMs multimodais que integram entradas visuais e de áudio. No entanto, esses modelos ainda enfrentam dificuldades com a compreensão temporal detalhada e cruzada entre modalidades, especialmente ao correlacionar eventos em fluxos de áudio e vídeo. Abordamos esses desafios com duas contribuições-chave: um novo conjunto de dados e modelo, chamados OCTAV e OMCAT, respectivamente. OCTAV (Omni Context and Temporal Audio Video) é um conjunto de dados inovador projetado para capturar transições de eventos entre áudio e vídeo. Em segundo lugar, OMCAT (Omni Context Aware Transformer) é um modelo poderoso que utiliza RoTE (Incorporação de Tempo Rotativo), uma extensão inovadora de RoPE, para aprimorar o ancoramento temporal e a eficiência computacional em tarefas ancoradas no tempo. Através de um robusto pipeline de treinamento em três estágios-alinhamento de características, ajuste de instruções e treinamento específico do OCTAV-OMCAT se destaca na compreensão temporal cruzada entre modalidades. Nosso modelo demonstra desempenho de ponta em tarefas de Perguntas e Respostas Audiovisuais (AVQA) e no benchmark OCTAV, exibindo ganhos significativos em raciocínio temporal e alinhamento cruzado entre modalidades, como validado por meio de experimentos abrangentes e estudos de ablação. Nosso conjunto de dados e código serão disponibilizados publicamente. O link para nossa página de demonstração é https://om-cat.github.io.
English
Large Language Models (LLMs) have made significant strides in text generation and comprehension, with recent advancements extending into multimodal LLMs that integrate visual and audio inputs. However, these models continue to struggle with fine-grained, cross-modal temporal understanding, particularly when correlating events across audio and video streams. We address these challenges with two key contributions: a new dataset and model, called OCTAV and OMCAT respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset designed to capture event transitions across audio and video. Second, OMCAT (Omni Context Aware Transformer) is a powerful model that leverages RoTE (Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal grounding and computational efficiency in time-anchored tasks. Through a robust three-stage training pipeline-feature alignment, instruction tuning, and OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our model demonstrates state-of-the-art performance on Audio-Visual Question Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in temporal reasoning and cross-modal alignment, as validated through comprehensive experiments and ablation studies. Our dataset and code will be made publicly available. The link to our demo page is https://om-cat.github.io.

Summary

AI-Generated Summary

PDF42November 16, 2024