LITA: Asistente de Localización Temporal Guiada por Lenguaje
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Autores: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Resumen
Ha habido un progreso tremendo en los modelos de lenguaje multimodal de gran escala (LLMs). Trabajos recientes han extendido estos modelos para manejar entradas de video con capacidades prometedoras de seguimiento de instrucciones. Sin embargo, un aspecto importante que falta es la localización temporal. Estos modelos no pueden responder con precisión a las preguntas de "¿Cuándo?". Identificamos tres aspectos clave que limitan sus capacidades de localización temporal: (i) representación del tiempo, (ii) arquitectura, y (iii) datos. Abordamos estas limitaciones proponiendo el Asistente de Localización Temporal con Instrucciones de Lenguaje (LITA) con las siguientes características: (1) Introducimos tokens de tiempo que codifican marcas temporales relativas a la duración del video para representar mejor el tiempo en los videos. (2) Introducimos tokens SlowFast en la arquitectura para capturar información temporal con una resolución temporal fina. (3) Hacemos hincapié en los datos de localización temporal para LITA. Además de aprovechar los conjuntos de datos de video existentes con marcas temporales, proponemos una nueva tarea, Localización Temporal de Razonamiento (RTL), junto con el conjunto de datos, ActivityNet-RTL, para aprender y evaluar esta tarea. La localización temporal de razonamiento requiere tanto el razonamiento como la localización temporal de los LLMs de video. LITA demuestra un rendimiento sólido en esta tarea desafiante, casi duplicando la intersección sobre unión media temporal (mIoU) de las líneas base. Además, mostramos que nuestro énfasis en la localización temporal también mejora sustancialmente la generación de texto basada en video en comparación con los LLMs de video existentes, incluyendo una mejora relativa del 36% en la Comprensión Temporal. El código está disponible en: https://github.com/NVlabs/LITA
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITASummary
AI-Generated Summary