LITA : Assistant de Localisation Temporelle Guidée par le Langage
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Auteurs: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (LLMs) ont connu des progrès considérables. Des travaux récents ont étendu ces modèles à l'entrée vidéo, démontrant des capacités prometteuses de suivi d'instructions. Cependant, un élément crucial manquant est la localisation temporelle. Ces modèles ne peuvent pas répondre avec précision aux questions de type "Quand ?". Nous identifions trois aspects clés qui limitent leurs capacités de localisation temporelle : (i) la représentation du temps, (ii) l'architecture, et (iii) les données. Nous abordons ces lacunes en proposant l'assistant de localisation temporelle guidé par le langage (LITA) avec les caractéristiques suivantes : (1) Nous introduisons des tokens temporels qui encodent les horodatages relatifs à la durée de la vidéo pour mieux représenter le temps dans les vidéos. (2) Nous introduisons des tokens SlowFast dans l'architecture pour capturer l'information temporelle à une résolution temporelle fine. (3) Nous mettons l'accent sur les données de localisation temporelle pour LITA. En plus d'exploiter les ensembles de données vidéo existants avec des horodatages, nous proposons une nouvelle tâche, la localisation temporelle raisonnée (RTL), ainsi qu'un ensemble de données, ActivityNet-RTL, pour l'apprentissage et l'évaluation de cette tâche. La localisation temporelle raisonnée nécessite à la fois le raisonnement et la localisation temporelle des LLMs vidéo. LITA démontre des performances solides sur cette tâche difficile, doublant presque le score moyen d'intersection sur union (mIoU) temporel des modèles de référence. De plus, nous montrons que notre accent sur la localisation temporelle améliore également considérablement la génération de texte basée sur la vidéo par rapport aux LLMs vidéo existants, y compris une amélioration relative de 36 % dans la compréhension temporelle. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/LITA
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITASummary
AI-Generated Summary