VidLA: Video-Sprachabstimmung im großen Maßstab

VidLA: Video-Language Alignment at Scale

March 21, 2024
Autoren: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI

Zusammenfassung

In diesem Paper schlagen wir VidLA vor, einen Ansatz für die Skalierung der Video-Sprach-Alignment vor. Es gibt zwei Hauptbeschränkungen früherer Ansätze zur Video-Sprach-Alignment. Erstens erfassen sie nicht sowohl kurze als auch lange zeitliche Abhängigkeiten und verwenden in der Regel komplexe hierarchische tiefe Netzwerkarchitekturen, die schwer mit vorhandenen vorab trainierten Bild-Text-Grundlagenmodellen zu integrieren sind. Um diese Beschränkung effektiv anzugehen, halten wir stattdessen die Netzwerkarchitektur einfach und verwenden eine Reihe von Datentoken, die hierarchisch auf unterschiedlichen zeitlichen Auflösungen arbeiten und die zeitlich hierarchische Natur von Videos berücksichtigen. Durch die Verwendung einer einfachen Zwei-Turm-Architektur können wir unser Video-Sprach-Modell mit vorab trainierten Bild-Text-Grundlagenmodellen initialisieren und somit die endgültige Leistung steigern. Zweitens haben bestehende Arbeiten zur Video-Sprach-Alignment Schwierigkeiten aufgrund des Mangels an semantisch abgestimmten groß angelegten Trainingsdaten. Um dies zu überwinden, nutzen wir aktuelle LLMs, um den bisher größten Video-Sprach-Datensatz mit besserer visueller Verankerung zu kuratieren. Darüber hinaus ist unser Datensatz im Gegensatz zu bestehenden Video-Text-Datensätzen, die nur kurze Clips enthalten, mit Video-Clips unterschiedlicher Dauer angereichert, um unseren zeitlich hierarchischen Datentoken zu helfen, bessere Repräsentationen auf unterschiedlichen zeitlichen Skalen zu extrahieren. Insgesamt zeigen empirische Ergebnisse, dass unser vorgeschlagener Ansatz auf mehreren Abruf-Benchmarks die Methoden auf dem neuesten Stand der Technik übertrifft, insbesondere bei längeren Videos, und auf Klassifizierungs-Benchmarks wettbewerbsfähig abschneidet.
English
In this paper, we propose VidLA, an approach for video-language alignment at scale. There are two major limitations of previous video-language alignment approaches. First, they do not capture both short-range and long-range temporal dependencies and typically employ complex hierarchical deep network architectures that are hard to integrate with existing pretrained image-text foundation models. To effectively address this limitation, we instead keep the network architecture simple and use a set of data tokens that operate at different temporal resolutions in a hierarchical manner, accounting for the temporally hierarchical nature of videos. By employing a simple two-tower architecture, we are able to initialize our video-language model with pretrained image-text foundation models, thereby boosting the final performance. Second, existing video-language alignment works struggle due to the lack of semantically aligned large-scale training data. To overcome it, we leverage recent LLMs to curate the largest video-language dataset to date with better visual grounding. Furthermore, unlike existing video-text datasets which only contain short clips, our dataset is enriched with video clips of varying durations to aid our temporally hierarchical data tokens in extracting better representations at varying temporal scales. Overall, empirical results show that our proposed approach surpasses state-of-the-art methods on multiple retrieval benchmarks, especially on longer videos, and performs competitively on classification benchmarks.

Summary

AI-Generated Summary

PDF141December 15, 2024