LITA: Помощник по локализации временных интервалов на основе языка
LITA: Language Instructed Temporal-Localization Assistant
March 27, 2024
Авторы: De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, Jan Kautz
cs.AI
Аннотация
В области мультимодальных крупных языковых моделей (LLM) произошел огромный прогресс. Недавние работы расширили эти модели на видеовход с обещающими возможностями следования за инструкциями. Однако важным недостающим элементом является временная локализация. Эти модели не могут точно ответить на вопросы "Когда?". Мы выделяем три ключевых аспекта, ограничивающих их возможности по временной локализации: (i) представление времени, (ii) архитектура и (iii) данные. Мы решаем эти недостатки, предлагая помощника по временной локализации на основе языка (LITA) со следующими особенностями: (1) Мы вводим временные токены, кодирующие метки времени относительно длины видео для лучшего представления времени в видео. (2) Мы вводим медленные и быстрые токены в архитектуру для захвата временной информации с хорошим временным разрешением. (3) Мы акцентируем данные по временной локализации для LITA. Помимо использования существующих видеодатасетов с метками времени, мы предлагаем новую задачу - Рассуждение о временной локализации (RTL), вместе с набором данных ActivityNet-RTL для обучения и оценки этой задачи. Рассуждение о временной локализации требует как рассуждения, так и временной локализации видео LLM. LITA демонстрирует высокую производительность на этой сложной задаче, практически удваивая среднее временное пересечение-по-объединению (mIoU) по сравнению с базовыми моделями. Кроме того, мы показываем, что наше внимание к временной локализации также существенно улучшает генерацию текста на основе видео по сравнению с существующими видео LLM, включая 36% относительного улучшения Понимания времени. Код доступен по адресу: https://github.com/NVlabs/LITA
English
There has been tremendous progress in multimodal Large Language Models
(LLMs). Recent works have extended these models to video input with promising
instruction following capabilities. However, an important missing piece is
temporal localization. These models cannot accurately answer the "When?"
questions. We identify three key aspects that limit their temporal localization
capabilities: (i) time representation, (ii) architecture, and (iii) data. We
address these shortcomings by proposing Language Instructed
Temporal-Localization Assistant (LITA) with the following features: (1) We
introduce time tokens that encode timestamps relative to the video length to
better represent time in videos. (2) We introduce SlowFast tokens in the
architecture to capture temporal information at fine temporal resolution. (3)
We emphasize temporal localization data for LITA. In addition to leveraging
existing video datasets with timestamps, we propose a new task, Reasoning
Temporal Localization (RTL), along with the dataset, ActivityNet-RTL, for
learning and evaluating this task. Reasoning temporal localization requires
both the reasoning and temporal localization of Video LLMs. LITA demonstrates
strong performance on this challenging task, nearly doubling the temporal mean
intersection-over-union (mIoU) of baselines. In addition, we show that our
emphasis on temporal localization also substantially improves video-based text
generation compared to existing Video LLMs, including a 36% relative
improvement of Temporal Understanding. Code is available at:
https://github.com/NVlabs/LITASummary
AI-Generated Summary