ChatPaper.aiChatPaper

OMCAT: Omni Kontextbewusster Transformer

OMCAT: Omni Context Aware Transformer

October 15, 2024
Autoren: Arushi Goel, Karan Sapra, Matthieu Le, Rafael Valle, Andrew Tao, Bryan Catanzaro
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Textgenerierung und -verständnis erzielt, wobei jüngste Entwicklungen in multimodale LLMs vorgedrungen sind, die visuelle und auditive Eingaben integrieren. Dennoch haben diese Modelle weiterhin Schwierigkeiten mit feingranularem, cross-modalem zeitlichem Verständnis, insbesondere bei der Korrelation von Ereignissen über Audio- und Videoströme hinweg. Wir gehen diese Herausforderungen mit zwei wesentlichen Beiträgen an: einem neuen Datensatz und Modell, genannt OCTAV und OMCAT. OCTAV (Omni Kontext und zeitlich Audio Video) ist ein neuartiger Datensatz, der Ereignisübergänge über Audio und Video erfassen soll. Zweitens ist OMCAT (Omni Kontext-bewusster Transformer) ein leistungsstarkes Modell, das RoTE (Rotary Time Embeddings), eine innovative Erweiterung von RoPE, nutzt, um zeitliche Verankerung und Rechenleistungseffizienz in zeitgebundenen Aufgaben zu verbessern. Durch einen robusten dreistufigen Trainingsprozess - Merkmalsausrichtung, Anweisungsfeinabstimmung und OCTAV-spezifisches Training - zeichnet sich OMCAT im cross-modalen zeitlichen Verständnis aus. Unser Modell zeigt Spitzenleistungen bei Audio-Visuelle Frage-Antwort (AVQA) Aufgaben und dem OCTAV Benchmark, wobei signifikante Fortschritte im zeitlichen Denken und cross-modalen Abgleich demonstriert werden, wie durch umfassende Experimente und Ablationsstudien validiert. Unser Datensatz und Code werden öffentlich zugänglich gemacht. Der Link zu unserer Demo-Seite lautet https://om-cat.github.io.
English
Large Language Models (LLMs) have made significant strides in text generation and comprehension, with recent advancements extending into multimodal LLMs that integrate visual and audio inputs. However, these models continue to struggle with fine-grained, cross-modal temporal understanding, particularly when correlating events across audio and video streams. We address these challenges with two key contributions: a new dataset and model, called OCTAV and OMCAT respectively. OCTAV (Omni Context and Temporal Audio Video) is a novel dataset designed to capture event transitions across audio and video. Second, OMCAT (Omni Context Aware Transformer) is a powerful model that leverages RoTE (Rotary Time Embeddings), an innovative extension of RoPE, to enhance temporal grounding and computational efficiency in time-anchored tasks. Through a robust three-stage training pipeline-feature alignment, instruction tuning, and OCTAV-specific training-OMCAT excels in cross-modal temporal understanding. Our model demonstrates state-of-the-art performance on Audio-Visual Question Answering (AVQA) tasks and the OCTAV benchmark, showcasing significant gains in temporal reasoning and cross-modal alignment, as validated through comprehensive experiments and ablation studies. Our dataset and code will be made publicly available. The link to our demo page is https://om-cat.github.io.

Summary

AI-Generated Summary

PDF42November 16, 2024