LITA: Assistente per la Localizzazione Temporale con Istruzioni Linguistiche
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Autori: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Abstract
Ci sono stati enormi progressi nei modelli linguistici multimodali di grandi dimensioni (LLM). Recenti lavori hanno esteso questi modelli all'input video, dimostrando promettenti capacità di seguire istruzioni. Tuttavia, un importante elemento mancante è la localizzazione temporale. Questi modelli non sono in grado di rispondere accuratamente alle domande sul "Quando?". Identifichiamo tre aspetti chiave che limitano le loro capacità di localizzazione temporale: (i) rappresentazione del tempo, (ii) architettura e (iii) dati. Affrontiamo queste carenze proponendo Language Instructed Temporal-Localization Assistant (LITA) con le seguenti caratteristiche: (1) Introduciamo token temporali che codificano timestamp relativi alla durata del video per rappresentare meglio il tempo nei video. (2) Introduciamo token SlowFast nell'architettura per catturare informazioni temporali con una risoluzione temporale fine. (3) Poniamo enfasi sui dati di localizzazione temporale per LITA. Oltre a sfruttare i dataset video esistenti con timestamp, proponiamo un nuovo compito, Reasoning Temporal Localization (RTL), insieme al dataset ActivityNet-RTL, per l'apprendimento e la valutazione di questo compito. La localizzazione temporale ragionata richiede sia il ragionamento che la localizzazione temporale dei Video LLM. LITA dimostra prestazioni solide in questo compito impegnativo, quasi raddoppiando la media temporale dell'intersezione sull'unione (mIoU) rispetto ai baseline. Inoltre, mostriamo che la nostra enfasi sulla localizzazione temporale migliora sostanzialmente anche la generazione di testo basata su video rispetto agli attuali Video LLM, inclusa un miglioramento relativo del 36% nella comprensione temporale. Il codice è disponibile all'indirizzo: https://github.com/NVlabs/LITA.
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITA