Перенос временного рассуждения из текста в видео
Temporal Reasoning Transfer from Text to Video
October 8, 2024
Авторы: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Аннотация
Видео Большие Языковые Модели (Video LLMs) продемонстрировали многообещающие возможности в понимании видео, однако испытывают трудности с отслеживанием временных изменений и рассуждениями о временных отношениях. В то время как предыдущие исследования относили это ограничение к неэффективному временному кодированию визуальных входов, наше диагностическое исследование показывает, что видео-представления содержат достаточную информацию для того, чтобы даже небольшие классификаторы-пробники достигали идеальной точности. Удивительно, мы обнаружили, что главное узкое место в способности Видео LLMs к временному рассуждению происходит из врожденной сложности LLM в отношении временных концепций, что подтверждается плохими результатами на текстовых временных задачах вопрос-ответ. Основываясь на этом открытии, мы представляем Textual Temporal reasoning Transfer (T3). T3 синтезирует разнообразные временные задачи рассуждений в чистом текстовом формате из существующих наборов данных изображений-текста, решая проблему нехватки видео-примеров с сложными временными сценариями. Замечательно, без использования видео-данных, T3 улучшает понимание времени LongVA-7B, обеспечивая улучшение точности на 5.3 абсолютных пункта на сложном бенчмарке TempCompass, что позволяет нашей модели превзойти ShareGPT4Video-8B, обученную на 28,000 видео-примерах. Кроме того, улучшенная модель LongVA-7B достигает конкурентоспособной производительности на обширных видео-бенчмарках. Например, она достигает точности 49.7 на задаче Временного Рассуждения Video-MME, превосходя мощные масштабные модели, такие как InternVL-Chat-V1.5-20B и VILA1.5-40B. Дополнительный анализ показывает сильную корреляцию между текстовой и видео временной производительностью задач, подтверждая эффективность передачи временных рассуждений из текстовой в видео-области.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in
video comprehension, yet they struggle with tracking temporal changes and
reasoning about temporal relationships. While previous research attributed this
limitation to the ineffective temporal encoding of visual inputs, our
diagnostic study reveals that video representations contain sufficient
information for even small probing classifiers to achieve perfect accuracy.
Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning
capability stems from the underlying LLM's inherent difficulty with temporal
concepts, as evidenced by poor performance on textual temporal
question-answering tasks. Building on this discovery, we introduce the Textual
Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning
tasks in pure text format from existing image-text datasets, addressing the
scarcity of video samples with complex temporal scenarios. Remarkably, without
using any video data, T3 enhances LongVA-7B's temporal understanding, yielding
a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark,
which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video
samples. Additionally, the enhanced LongVA-7B model achieves competitive
performance on comprehensive video benchmarks. For example, it achieves a 49.7
accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful
large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further
analysis reveals a strong correlation between textual and video temporal task
performance, validating the efficacy of transferring temporal reasoning
abilities from text to video domains.Summary
AI-Generated Summary