텍스트에서 비디오로의 시간적 추론 전이
Temporal Reasoning Transfer from Text to Video
October 8, 2024
저자: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
초록
비디오 대형 언어 모델(Video LLMs)은 비디오 이해에서 유망한 능력을 보여주었지만, 시간적 변화를 추적하고 시간적 관계를 추론하는 데 어려움을 겪습니다. 이전 연구에서는 시각적 입력의 비효율적인 시간적 인코딩으로 이 한계를 설명했지만, 우리의 진단 연구는 비디오 표현이 충분한 정보를 포함하고 있어 작은 프로빙 분류기조차 완벽한 정확도를 달성할 수 있음을 밝혀냅니다. 놀랍게도, 비디오 LLMs의 시간적 추론 능력의 주요 병목 현상은 시간 개념에 대한 기본 LLM의 내재적인 어려움에서 비롯된다는 것을 발견했는데, 이는 텍스트 시간적 질의응답 작업에서의 성능 저하로 입증되었습니다. 이 발견을 기반으로 우리는 Textual Temporal reasoning Transfer (T3)를 소개합니다. T3는 기존 이미지-텍스트 데이터셋에서 순수한 텍스트 형식의 다양한 시간적 추론 작업을 합성하여 복잡한 시간적 시나리오를 가진 비디오 샘플의 부족을 해결합니다. 놀랍게도, 비디오 데이터를 사용하지 않고 T3는 LongVA-7B의 시간적 이해를 향상시켜, 도전적인 TempCompass 벤치마크에서 5.3의 절대 정확도 향상을 이끌어내어, 우리 모델이 28,000개의 비디오 샘플로 훈련된 ShareGPT4Video-8B를 능가하도록 합니다. 더불어, 향상된 LongVA-7B 모델은 포괄적인 비디오 벤치마크에서 경쟁력 있는 성능을 달성합니다. 예를 들어, Video-MME의 시간적 추론 작업에서 49.7의 정확도를 달성하여 InternVL-Chat-V1.5-20B와 VILA1.5-40B와 같은 강력한 대규모 모델을 능가합니다. 추가적인 분석은 텍스트와 비디오 시간적 작업 성능 사이의 강한 상관 관계를 밝혀내어, 텍스트에서 비디오 도메인으로 시간적 추론 능력을 전이하는 효과를 검증합니다.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in
video comprehension, yet they struggle with tracking temporal changes and
reasoning about temporal relationships. While previous research attributed this
limitation to the ineffective temporal encoding of visual inputs, our
diagnostic study reveals that video representations contain sufficient
information for even small probing classifiers to achieve perfect accuracy.
Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning
capability stems from the underlying LLM's inherent difficulty with temporal
concepts, as evidenced by poor performance on textual temporal
question-answering tasks. Building on this discovery, we introduce the Textual
Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning
tasks in pure text format from existing image-text datasets, addressing the
scarcity of video samples with complex temporal scenarios. Remarkably, without
using any video data, T3 enhances LongVA-7B's temporal understanding, yielding
a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark,
which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video
samples. Additionally, the enhanced LongVA-7B model achieves competitive
performance on comprehensive video benchmarks. For example, it achieves a 49.7
accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful
large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further
analysis reveals a strong correlation between textual and video temporal task
performance, validating the efficacy of transferring temporal reasoning
abilities from text to video domains.Summary
AI-Generated Summary