Tijdsgebonden redeneringsoverdracht van tekst naar video
Temporal Reasoning Transfer from Text to Video
October 8, 2024
Auteurs: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Samenvatting
Video Large Language Models (Video LLM's) hebben veelbelovende mogelijkheden getoond op het gebied van videobegrip, maar ze hebben moeite met het volgen van temporele veranderingen en het redeneren over temporele relaties. Terwijl eerdere onderzoeken deze beperking toeschreven aan de ineffectieve temporele codering van visuele invoer, onthult onze diagnostische studie dat videovoorstellingen voldoende informatie bevatten voor zelfs kleine proefclassifiers om perfecte nauwkeurigheid te bereiken. Verrassend genoeg vinden we dat de belangrijkste bottleneck in de temporele redeneervaardigheid van Video LLM's voortkomt uit de inherente moeilijkheid van de onderliggende LLM met temporele concepten, zoals blijkt uit de slechte prestaties op tekstuele temporele vraag-en-antwoordtaken. Voortbouwend op deze ontdekking introduceren we de Textuele Temporele Redeneeroverdracht (T3). T3 synthetiseert diverse temporele redeneertaken in puur tekstformaat van bestaande afbeelding-tekstdatasets, waarbij de schaarste aan videovoorbeelden met complexe temporele scenario's wordt aangepakt. Opmerkelijk genoeg verbetert T3 de temporele begripsvaardigheid van LongVA-7B zonder enig videomateriaal te gebruiken, wat resulteert in een absolute nauwkeurigheidsverbetering van 5.3 op de uitdagende TempCompass benchmark, waardoor ons model ShareGPT4Video-8B, getraind op 28.000 videovoorbeelden, overtreft. Bovendien behaalt het verbeterde LongVA-7B-model een concurrerende prestatie op uitgebreide videobenchmarks. Zo behaalt het een nauwkeurigheid van 49.7 op de Temporele Redeneertaak van Video-MME, waarbij krachtige grootschalige modellen zoals InternVL-Chat-V1.5-20B en VILA1.5-40B worden overtroffen. Verder onderzoek onthult een sterke correlatie tussen de prestaties van tekstuele en videotemporele taken, wat de doeltreffendheid van het overdragen van temporele redeneervaardigheden van tekst naar video domeinen bevestigt.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in
video comprehension, yet they struggle with tracking temporal changes and
reasoning about temporal relationships. While previous research attributed this
limitation to the ineffective temporal encoding of visual inputs, our
diagnostic study reveals that video representations contain sufficient
information for even small probing classifiers to achieve perfect accuracy.
Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning
capability stems from the underlying LLM's inherent difficulty with temporal
concepts, as evidenced by poor performance on textual temporal
question-answering tasks. Building on this discovery, we introduce the Textual
Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning
tasks in pure text format from existing image-text datasets, addressing the
scarcity of video samples with complex temporal scenarios. Remarkably, without
using any video data, T3 enhances LongVA-7B's temporal understanding, yielding
a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark,
which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video
samples. Additionally, the enhanced LongVA-7B model achieves competitive
performance on comprehensive video benchmarks. For example, it achieves a 49.7
accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful
large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further
analysis reveals a strong correlation between textual and video temporal task
performance, validating the efficacy of transferring temporal reasoning
abilities from text to video domains.Summary
AI-Generated Summary