VideoLLM Sabe Quando Falar: Melhorando a Compreensão de Vídeos Sensíveis ao Tempo com o Formato de Interação Vídeo-Texto Duet.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Autores: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Resumo
As pesquisas recentes sobre grandes modelos de linguagem de vídeo (VideoLLM) predominantemente focam em arquiteturas de modelo e conjuntos de dados de treinamento, deixando o formato de interação entre o usuário e o modelo pouco explorado. Nos trabalhos existentes, os usuários frequentemente interagem com os VideoLLMs usando o vídeo completo e uma consulta como entrada, após o que o modelo gera uma resposta. Esse formato de interação limita a aplicação dos VideoLLMs em cenários como compreensão de transmissão ao vivo, onde os vídeos não têm fim e as respostas são necessárias em tempo real, e também resulta em desempenho insatisfatório em tarefas sensíveis ao tempo que exigem a localização de segmentos de vídeo. Neste artigo, focamos em um formato de interação vídeo-texto em dueto. Esse formato de interação é caracterizado pela reprodução contínua do vídeo, e tanto o usuário quanto o modelo podem inserir suas mensagens de texto em qualquer posição durante a reprodução do vídeo. Quando uma mensagem de texto termina, o vídeo continua a ser reproduzido, assemelhando-se à alternativa de dois artistas em um dueto. Construímos o MMDuetIT, um conjunto de dados de treinamento vídeo-texto projetado para adaptar os VideoLLMs ao formato de interação vídeo-texto em dueto. Também introduzimos a tarefa de Question Answering de Vídeo Ancorado em Múltiplas Respostas (MAGQA) para avaliar a capacidade de resposta em tempo real dos VideoLLMs. Treinado no MMDuetIT, o MMDuet demonstra que a adoção do formato de interação vídeo-texto em dueto permite que o modelo alcance melhorias significativas em várias tarefas sensíveis ao tempo (76% CIDEr na legenda densa de vídeo YouCook2, 90% mAP na detecção de destaques QVHighlights e 25% [email protected] no ancoramento temporal de vídeo Charades-STA) com esforços mínimos de treinamento, e também permite que os VideoLLMs respondam em tempo real enquanto o vídeo é reproduzido. Código, dados e demonstração estão disponíveis em: https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary