ChatPaper.aiChatPaper

LITA: Assistente de Localização Temporal Instruída por Linguagem

LITA: Language Instructed Temporal-Localization Assistant

March 27, 2024
Autores: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI

Resumo

Houve um progresso significativo nos modelos de linguagem multimodal de grande escala (LLMs). Trabalhos recentes estenderam esses modelos para entrada de vídeo com capacidades promissoras de seguir instruções. No entanto, uma peça importante que está faltando é a localização temporal. Esses modelos não conseguem responder com precisão às perguntas de "Quando?". Identificamos três aspectos-chave que limitam suas capacidades de localização temporal: (i) representação do tempo, (ii) arquitetura e (iii) dados. Abordamos essas deficiências propondo o Assistente de Localização Temporal com Instrução de Linguagem (LITA) com as seguintes características: (1) Introduzimos tokens de tempo que codificam timestamps relativos à duração do vídeo para representar melhor o tempo em vídeos. (2) Introduzimos tokens SlowFast na arquitetura para capturar informações temporais em resolução temporal fina. (3) Damos ênfase aos dados de localização temporal para o LITA. Além de aproveitar conjuntos de dados de vídeo existentes com timestamps, propomos uma nova tarefa, Localização Temporal de Raciocínio (RTL), juntamente com o conjunto de dados, ActivityNet-RTL, para aprender e avaliar essa tarefa. A localização temporal de raciocínio requer tanto o raciocínio quanto a localização temporal dos LLMs de vídeo. O LITA demonstra um desempenho forte nessa tarefa desafiadora, quase dobrando a média de interseção sobre união temporal (mIoU) das linhas de base. Além disso, mostramos que nossa ênfase na localização temporal também melhora substancialmente a geração de texto baseada em vídeo em comparação com os LLMs de vídeo existentes, incluindo uma melhoria relativa de 36% na Compreensão Temporal. O código está disponível em: https://github.com/NVlabs/LITA
English
There has been tremendous progress in multimodal Large Language Models (LLMs). Recent works have extended these models to video input with promising instruction following capabilities. However, an important missing piece is temporal localization. These models cannot accurately answer the "When?" questions. We identify three key aspects that limit their temporal localization capabilities: (i) time representation, (ii) architecture, and (iii) data. We address these shortcomings by proposing Language Instructed Temporal-Localization Assistant (LITA) with the following features: (1) We introduce time tokens that encode timestamps relative to the video length to better represent time in videos. (2) We introduce SlowFast tokens in the architecture to capture temporal information at fine temporal resolution. (3) We emphasize temporal localization data for LITA. In addition to leveraging existing video datasets with timestamps, we propose a new task, Reasoning Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for learning and evaluating this task. Reasoning temporal localization requires both the reasoning and temporal localization of Video LLMs. LITA demonstrates strong performance on this challenging task, nearly doubling the temporal mean intersection-over-union (mIoU) of baselines. In addition, we show that our emphasis on temporal localization also substantially improves video-based text generation compared to existing Video LLMs, including a 36% relative improvement of Temporal Understanding. Code is available at: https://github.com/NVlabs/LITA
PDF191February 8, 2026