Transferência de Raciocínio Temporal de Texto para Vídeo

Resumo

Os Modelos de Linguagem em Vídeo de Grande Escala (Video LLMs) têm demonstrado capacidades promissoras na compreensão de vídeos, no entanto, enfrentam dificuldades em rastrear mudanças temporais e raciocinar sobre relações temporais. Enquanto pesquisas anteriores atribuíram essa limitação à codificação temporal ineficaz das entradas visuais, nosso estudo diagnóstico revela que as representações de vídeo contêm informações suficientes para que até mesmo classificadores de sondagem pequenos alcancem precisão perfeita. Surpreendentemente, descobrimos que o principal gargalo na capacidade de raciocínio temporal dos Video LLMs decorre da dificuldade inerente dos LLMs subjacentes com conceitos temporais, como evidenciado pelo desempenho fraco em tarefas de perguntas e respostas temporais textuais. Com base nessa descoberta, apresentamos a Transferência de Raciocínio Temporal Textual (T3). O T3 sintetiza diversas tarefas de raciocínio temporal em formato de texto puro a partir de conjuntos de dados de imagem-texto existentes, abordando a escassez de amostras de vídeo com cenários temporais complexos. Notavelmente, sem utilizar nenhum dado de vídeo, o T3 aprimora a compreensão temporal do LongVA-7B, resultando em um aumento absoluto de 5,3 pontos percentuais de precisão no desafiador benchmark TempCompass, o que permite que nosso modelo supere o ShareGPT4Video-8B treinado em 28.000 amostras de vídeo. Além disso, o modelo LongVA-7B aprimorado alcança um desempenho competitivo em benchmarks abrangentes de vídeo. Por exemplo, ele atinge uma precisão de 49,7 no benchmark de Raciocínio Temporal do Video-MME, superando modelos em larga escala poderosos como o InternVL-Chat-V1.5-20B e o VILA1.5-40B. Uma análise adicional revela uma forte correlação entre o desempenho em tarefas temporais textuais e de vídeo, validando a eficácia da transferência de habilidades de raciocínio temporal de texto para domínios de vídeo.

English

Video Large Language Models (Video LLMs) have shown promising capabilities in video comprehension, yet they struggle with tracking temporal changes and reasoning about temporal relationships. While previous research attributed this limitation to the ineffective temporal encoding of visual inputs, our diagnostic study reveals that video representations contain sufficient information for even small probing classifiers to achieve perfect accuracy. Surprisingly, we find that the key bottleneck in Video LLMs' temporal reasoning capability stems from the underlying LLM's inherent difficulty with temporal concepts, as evidenced by poor performance on textual temporal question-answering tasks. Building on this discovery, we introduce the Textual Temporal reasoning Transfer (T3). T3 synthesizes diverse temporal reasoning tasks in pure text format from existing image-text datasets, addressing the scarcity of video samples with complex temporal scenarios. Remarkably, without using any video data, T3 enhances LongVA-7B's temporal understanding, yielding a 5.3 absolute accuracy improvement on the challenging TempCompass benchmark, which enables our model to outperform ShareGPT4Video-8B trained on 28,000 video samples. Additionally, the enhanced LongVA-7B model achieves competitive performance on comprehensive video benchmarks. For example, it achieves a 49.7 accuracy on the Temporal Reasoning task of Video-MME, surpassing powerful large-scale models such as InternVL-Chat-V1.5-20B and VILA1.5-40B. Further analysis reveals a strong correlation between textual and video temporal task performance, validating the efficacy of transferring temporal reasoning abilities from text to video domains.

Transferência de Raciocínio Temporal de Texto para Vídeo

Temporal Reasoning Transfer from Text to Video

Resumo

Support