ChatPaper.aiChatPaper

Transfert de raisonnement temporel du texte à la vidéo

Temporal Reasoning Transfer from Text to Video

October 8, 2024
Auteurs: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI

Résumé

Les Modèles de Langage à Grande Échelle pour les Vidéos (Video LLMs) ont montré des capacités prometteuses en matière de compréhension vidéo, mais ils rencontrent des difficultés à suivre les changements temporels et à raisonner sur les relations temporelles. Alors que des recherches antérieures attribuaient cette limitation à un encodage temporel inefficace des entrées visuelles, notre étude diagnostique révèle que les représentations vidéo contiennent suffisamment d'informations pour que même de petits classificateurs de sondage atteignent une précision parfaite. De manière surprenante, nous constatons que le principal goulot d'étranglement dans la capacité de raisonnement temporel des Video LLMs découle de la difficulté inhérente des LLMs sous-jacents avec les concepts temporels, comme en témoigne leurs mauvaises performances sur des tâches de questions-réponses temporelles textuelles. S'appuyant sur cette découverte, nous introduisons le Transfert de Raisonnement Temporel Textuel (T3). Le T3 synthétise diverses tâches de raisonnement temporel au format texte pur à partir de jeux de données image-texte existants, répondant à la rareté des échantillons vidéo présentant des scénarios temporels complexes. De manière remarquable, sans utiliser de données vidéo, le T3 améliore la compréhension temporelle du LongVA-7B, entraînant une amélioration de précision absolue de 5,3 sur le difficile banc d'essai TempCompass, ce qui permet à notre modèle de surpasser le ShareGPT4Video-8B entraîné sur 28 000 échantillons vidéo. De plus, le modèle amélioré LongVA-7B obtient des performances compétitives sur des bancs d'essai vidéo complets. Par exemple, il atteint une précision de 49,7 sur la tâche de Raisonnement Temporel de Video-MME, dépassant des modèles à grande échelle puissants tels que InternVL-Chat-V1.5-20B et VILA1.5-40B. Une analyse supplémentaire révèle une forte corrélation entre les performances des tâches temporelles textuelles et vidéo, validant l'efficacité du transfert des capacités de raisonnement temporel du texte aux domaines vidéo.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in video comprehension, yet they struggle with tracking temporal changes and reasoning about temporal relationships. While previous research attributed this limitation to the ineffective temporal encoding of visual inputs, our diagnostic study reveals that video representations contain sufficient information for even small probing classifiers to achieve perfect accuracy. Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning capability stems from the underlying LLM's inherent difficulty with temporal concepts, as evidenced by poor performance on textual temporal question-answering tasks. Building on this discovery, we introduce the Textual Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning tasks in pure text format from existing image-text datasets, addressing the scarcity of video samples with complex temporal scenarios. Remarkably, without using any video data, T3 enhances LongVA-7B's temporal understanding, yielding a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark, which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video samples. Additionally, the enhanced LongVA-7B model achieves competitive performance on comprehensive video benchmarks. For example, it achieves a 49.7 accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further analysis reveals a strong correlation between textual and video temporal task performance, validating the efficacy of transferring temporal reasoning abilities from text to video domains.

Summary

AI-Generated Summary

PDF134November 16, 2024