LITA: Taalgeïnstrueerde Temporele Lokalisatie-assistent
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Auteurs: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Samenvatting
Er is enorme vooruitgang geboekt in multimodale Large Language Models (LLM's). Recente werken hebben deze modellen uitgebreid naar video-invoer met veelbelovende mogelijkheden voor instructievolging. Een belangrijk ontbrekend element is echter temporele lokalisatie. Deze modellen kunnen de "Wanneer?"-vragen niet nauwkeurig beantwoorden. We identificeren drie belangrijke aspecten die hun temporele lokalisatiecapaciteiten beperken: (i) tijdsrepresentatie, (ii) architectuur, en (iii) data. We pakken deze tekortkomingen aan door de Language Instructed Temporal-Localization Assistant (LITA) voor te stellen met de volgende kenmerken: (1) We introduceren tijdstokens die tijdstempels coderen relatief aan de videolengte om tijd in video's beter te representeren. (2) We introduceren SlowFast-tokens in de architectuur om temporele informatie op fijne temporele resolutie vast te leggen. (3) We leggen de nadruk op temporele lokalisatiedata voor LITA. Naast het benutten van bestaande videodatasets met tijdstempels, stellen we een nieuwe taak voor, Reasoning Temporal Localization (RTL), samen met de dataset, ActivityNet-RTL, voor het leren en evalueren van deze taak. Redenerende temporele lokalisatie vereist zowel het redeneren als de temporele lokalisatie van Video LLM's. LITA toont sterke prestaties op deze uitdagende taak, waarbij de temporele gemiddelde intersection-over-union (mIoU) van de basislijnen bijna verdubbeld wordt. Daarnaast laten we zien dat onze nadruk op temporele lokalisatie ook de op video gebaseerde tekstgeneratie aanzienlijk verbetert in vergelijking met bestaande Video LLM's, inclusief een relatieve verbetering van 36% in Temporeel Begrip. De code is beschikbaar op: https://github.com/NVlabs/LITA.
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITA