LITA: Assistente de Localização Temporal Instruída por Linguagem
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Autores: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Resumo
Houve um progresso significativo nos modelos de linguagem multimodal de grande escala (LLMs). Trabalhos recentes estenderam esses modelos para entrada de vídeo com capacidades promissoras de seguir instruções. No entanto, uma peça importante que está faltando é a localização temporal. Esses modelos não conseguem responder com precisão às perguntas de "Quando?". Identificamos três aspectos-chave que limitam suas capacidades de localização temporal: (i) representação do tempo, (ii) arquitetura e (iii) dados. Abordamos essas deficiências propondo o Assistente de Localização Temporal com Instrução de Linguagem (LITA) com as seguintes características: (1) Introduzimos tokens de tempo que codificam timestamps relativos à duração do vídeo para representar melhor o tempo em vídeos. (2) Introduzimos tokens SlowFast na arquitetura para capturar informações temporais em resolução temporal fina. (3) Damos ênfase aos dados de localização temporal para o LITA. Além de aproveitar conjuntos de dados de vídeo existentes com timestamps, propomos uma nova tarefa, Localização Temporal de Raciocínio (RTL), juntamente com o conjunto de dados, ActivityNet-RTL, para aprender e avaliar essa tarefa. A localização temporal de raciocínio requer tanto o raciocínio quanto a localização temporal dos LLMs de vídeo. O LITA demonstra um desempenho forte nessa tarefa desafiadora, quase dobrando a média de interseção sobre união temporal (mIoU) das linhas de base. Além disso, mostramos que nossa ênfase na localização temporal também melhora substancialmente a geração de texto baseada em vídeo em comparação com os LLMs de vídeo existentes, incluindo uma melhoria relativa de 36% na Compreensão Temporal. O código está disponível em: https://github.com/NVlabs/LITA
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITA