Transferência de Raciocínio Temporal de Texto para Vídeo
Temporal Reasoning Transfer from Text to Video
October 8, 2024
Autores: Lei Li, Yuanxin Liu, Linli Yao, Peiyuan Zhang, Chenxin An, Lean Wang, Xu Sun, Lingpeng Kong, Qi Liu
cs.AI
Resumo
Os Modelos de Linguagem em Vídeo de Grande Escala (Video LLMs) têm demonstrado capacidades promissoras na compreensão de vídeos, no entanto, enfrentam dificuldades em rastrear mudanças temporais e raciocinar sobre relações temporais. Enquanto pesquisas anteriores atribuíram essa limitação à codificação temporal ineficaz das entradas visuais, nosso estudo diagnóstico revela que as representações de vídeo contêm informações suficientes para que até mesmo classificadores de sondagem pequenos alcancem precisão perfeita. Surpreendentemente, descobrimos que o principal gargalo na capacidade de raciocínio temporal dos Video LLMs decorre da dificuldade inerente dos LLMs subjacentes com conceitos temporais, como evidenciado pelo desempenho fraco em tarefas de perguntas e respostas temporais textuais. Com base nessa descoberta, apresentamos a Transferência de Raciocínio Temporal Textual (T3). O T3 sintetiza diversas tarefas de raciocínio temporal em formato de texto puro a partir de conjuntos de dados de imagem-texto existentes, abordando a escassez de amostras de vídeo com cenários temporais complexos. Notavelmente, sem utilizar nenhum dado de vídeo, o T3 aprimora a compreensão temporal do LongVA-7B, resultando em um aumento absoluto de 5,3 pontos percentuais de precisão no desafiador benchmark TempCompass, o que permite que nosso modelo supere o ShareGPT4Video-8B treinado em 28.000 amostras de vídeo. Além disso, o modelo LongVA-7B aprimorado alcança um desempenho competitivo em benchmarks abrangentes de vídeo. Por exemplo, ele atinge uma precisão de 49,7 no benchmark de Raciocínio Temporal do Video-MME, superando modelos em larga escala poderosos como o InternVL-Chat-V1.5-20B e o VILA1.5-40B. Uma análise adicional revela uma forte correlação entre o desempenho em tarefas temporais textuais e de vídeo, validando a eficácia da transferência de habilidades de raciocínio temporal de texto para domínios de vídeo.
English
Video Large Language Models (Video LLMs) have shown promising capabilities in
video comprehension, yet they struggle with tracking temporal changes and
reasoning about temporal relationships. While previous research attributed this
limitation to the ineffective temporal encoding of visual inputs, our
diagnostic study reveals that video representations contain sufficient
information for even small probing classifiers to achieve perfect accuracy.
Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning
capability stems from the underlying LLM's inherent difficulty with temporal
concepts, as evidenced by poor performance on textual temporal
question-answering tasks. Building on this discovery, we introduce the Textual
Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning
tasks in pure text format from existing image-text datasets, addressing the
scarcity of video samples with complex temporal scenarios. Remarkably, without
using any video data, T3 enhances LongVA-7B's temporal understanding, yielding
a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark,
which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video
samples. Additionally, the enhanced LongVA-7B model achieves competitive
performance on comprehensive video benchmarks. For example, it achieves a 49.7
accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful
large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further
analysis reveals a strong correlation between textual and video temporal task
performance, validating the efficacy of transferring temporal reasoning
abilities from text to video domains.Summary
AI-Generated Summary