ChatPaper.aiChatPaper

Trasferimento del Ragionamento Temporale dal Testo al Video

Temporal Reasoning Transfer from Text to Video

October 8, 2024
Autori: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI

Abstract

I Video Large Language Models (Video LLM) hanno dimostrato capacità promettenti nella comprensione dei video, tuttavia faticano nel tracciare i cambiamenti temporali e nel ragionare sulle relazioni temporali. Mentre ricerche precedenti attribuivano questa limitazione alla codifica temporale inefficace degli input visivi, il nostro studio diagnostico rivela che le rappresentazioni video contengono informazioni sufficienti affinché anche piccoli classificatori di sondaggio raggiungano un'accuratezza perfetta. Sorprendentemente, scopriamo che il principale ostacolo nella capacità di ragionamento temporale dei Video LLM deriva dalla difficoltà intrinseca dell'LLM sottostante con i concetti temporali, come dimostrato dalle scarse prestazioni nei compiti di domande-risposte temporali testuali. Basandoci su questa scoperta, introduciamo il Trasferimento del ragionamento temporale testuale (T3). T3 sintetizza diversi compiti di ragionamento temporale in formato testuale puro da dataset esistenti di immagini-testo, affrontando la scarsità di campioni video con scenari temporali complessi. Sorprendentemente, senza utilizzare alcun dato video, T3 migliora la comprensione temporale di LongVA-7B, ottenendo un miglioramento dell'accuratezza assoluta del 5,3 sul difficile benchmark TempCompass, consentendo al nostro modello di superare ShareGPT4Video-8B addestrato su 28.000 campioni video. Inoltre, il modello LongVA-7B potenziato raggiunge prestazioni competitive su ampi benchmark video. Ad esempio, raggiunge un'accuratezza del 49,7 nel compito di Ragionamento Temporale di Video-MME, superando potenti modelli su larga scala come InternVL-Chat-V1.5-20B e VILA1.5-40B. Ulteriori analisi rivelano una forte correlazione tra le prestazioni nei compiti temporali testuali e video, convalidando l'efficacia del trasferimento delle capacità di ragionamento temporale dal testo ai video.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in video comprehension, yet they struggle with tracking temporal changes and reasoning about temporal relationships. While previous research attributed this limitation to the ineffective temporal encoding of visual inputs, our diagnostic study reveals that video representations contain sufficient information for even small probing classifiers to achieve perfect accuracy. Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning capability stems from the underlying LLM's inherent difficulty with temporal concepts, as evidenced by poor performance on textual temporal question-answering tasks. Building on this discovery, we introduce the Textual Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning tasks in pure text format from existing image-text datasets, addressing the scarcity of video samples with complex temporal scenarios. Remarkably, without using any video data, T3 enhances LongVA-7B's temporal understanding, yielding a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark, which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video samples. Additionally, the enhanced LongVA-7B model achieves competitive performance on comprehensive video benchmarks. For example, it achieves a 49.7 accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further analysis reveals a strong correlation between textual and video temporal task performance, validating the efficacy of transferring temporal reasoning abilities from text to video domains.
PDF134November 16, 2024