LITA: Sprachgestützter zeitlicher Lokalisierungsassistent
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Autoren: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Zusammenfassung
Es hat enorme Fortschritte bei multimodalen Large Language Models (LLMs) gegeben. Aktuelle Arbeiten haben diese Modelle auf Videoeingaben mit vielversprechenden Anweisungsfolge-Fähigkeiten erweitert. Ein wichtiges fehlendes Element ist jedoch die zeitliche Lokalisierung. Diese Modelle können die "Wann?"-Fragen nicht genau beantworten. Wir identifizieren drei Schlüsselfaktoren, die ihre zeitlichen Lokalisierungsfähigkeiten einschränken: (i) Zeitdarstellung, (ii) Architektur und (iii) Daten. Wir beheben diese Mängel, indem wir den Language Instructed Temporal-Localization Assistant (LITA) mit den folgenden Merkmalen vorschlagen: (1) Wir führen Zeit-Token ein, die Zeitstempel relativ zur Videolänge codieren, um die Zeit in Videos besser darzustellen. (2) Wir führen SlowFast-Token in die Architektur ein, um zeitliche Informationen mit feiner zeitlicher Auflösung zu erfassen. (3) Wir legen den Schwerpunkt auf zeitliche Lokalisierungsdaten für LITA. Neben der Nutzung vorhandener Videodatensätze mit Zeitstempeln schlagen wir eine neue Aufgabe, Reasoning Temporal Localization (RTL), zusammen mit dem Datensatz ActivityNet-RTL vor, um diese Aufgabe zu erlernen und zu bewerten. Das Schlussfolgern der zeitlichen Lokalisierung erfordert sowohl das Schlussfolgern als auch die zeitliche Lokalisierung von Video-LLMs. LITA zeigt eine starke Leistung bei dieser anspruchsvollen Aufgabe, wobei die zeitliche mittlere Intersection-over-Union (mIoU) der Baselines fast verdoppelt wird. Darüber hinaus zeigen wir, dass unser Schwerpunkt auf der zeitlichen Lokalisierung auch die videobasierte Textgenerierung im Vergleich zu bestehenden Video-LLMs erheblich verbessert, einschließlich einer 36%igen relativen Verbesserung des Temporal Understanding. Der Code ist verfügbar unter: https://github.com/NVlabs/LITA
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITASummary
AI-Generated Summary