Zeitliches Schlussfolgern Transfer von Text zu Video
Temporal Reasoning Transfer from Text to Video
October 8, 2024
Autoren: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Zusammenfassung
Video Large Language Models (Video LLMs) haben vielversprechende Fähigkeiten in der Videoverarbeitung gezeigt, kämpfen jedoch mit der Verfolgung zeitlicher Veränderungen und dem Schlussfolgern über zeitliche Beziehungen. Während frühere Forschungen diese Begrenzung der ineffektiven zeitlichen Kodierung von visuellen Eingaben zuschrieben, zeigt unsere diagnostische Studie, dass Video-Repräsentationen ausreichende Informationen enthalten, damit selbst kleine Sondierungs-Klassifikatoren eine perfekte Genauigkeit erreichen können. Überraschenderweise stellen wir fest, dass der entscheidende Engpass in der zeitlichen Schlussfolgerungsfähigkeit von Video LLMs von der inhärenten Schwierigkeit des zugrunde liegenden LLMs mit zeitlichen Konzepten herrührt, wie durch die schlechte Leistung bei textuellen zeitlichen Frage-Antwort-Aufgaben belegt wird. Aufbauend auf dieser Entdeckung führen wir das Textuelle Temporale Schlussfolgerungs-Transfer (T3) ein. T3 synthetisiert vielfältige zeitliche Schlussfolgerungsaufgaben im reinen Textformat aus vorhandenen Bild-Text-Datensätzen und behebt so die Knappheit von Videosamples mit komplexen zeitlichen Szenarien. Bemerkenswerterweise verbessert T3 ohne Verwendung von Videodaten das Verständnis für Zeit von LongVA-7B und erzielt eine absolute Genauigkeitssteigerung von 5,3 auf dem anspruchsvollen TempCompass-Benchmark, was unserem Modell ermöglicht, ShareGPT4Video-8B zu übertreffen, der auf 28.000 Videosamples trainiert wurde. Darüber hinaus erzielt das verbesserte LongVA-7B-Modell eine wettbewerbsfähige Leistung auf umfassenden Video-Benchmarks. Zum Beispiel erreicht es eine Genauigkeit von 49,7 bei der zeitlichen Schlussfolgerungsaufgabe von Video-MME und übertrifft leistungsstarke großangelegte Modelle wie InternVL-Chat-V1.5-20B und VILA1.5-40B. Eine weitere Analyse zeigt eine starke Korrelation zwischen der Leistung bei textuellen und Video-Zeitaufgaben und bestätigt die Wirksamkeit der Übertragung zeitlicher Schlussfolgerungsfähigkeiten von Text- auf Videobereiche.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in
video comprehension, yet they struggle with tracking temporal changes and
reasoning about temporal relationships. While previous research attributed this
limitation to the ineffective temporal encoding of visual inputs, our
diagnostic study reveals that video representations contain sufficient
information for even small probing classifiers to achieve perfect accuracy.
Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning
capability stems from the underlying LLM's inherent difficulty with temporal
concepts, as evidenced by poor performance on textual temporal
question-answering tasks. Building on this discovery, we introduce the Textual
Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning
tasks in pure text format from existing image-text datasets, addressing the
scarcity of video samples with complex temporal scenarios. Remarkably, without
using any video data, T3 enhances LongVA-7B's temporal understanding, yielding
a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark,
which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video
samples. Additionally, the enhanced LongVA-7B model achieves competitive
performance on comprehensive video benchmarks. For example, it achieves a 49.7
accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful
large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further
analysis reveals a strong correlation between textual and video temporal task
performance, validating the efficacy of transferring temporal reasoning
abilities from text to video domains.Summary
AI-Generated Summary