VideoLLM Weet Wanneer Te Spreken: Het Verbeteren Van Tijdgevoelige Video Begrip Met Video-tekst Duet Interactie Formaat
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Auteurs: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Samenvatting
Recente onderzoeken naar video large language models (VideoLLM) richten zich voornamelijk op modelarchitecturen en trainingsdatasets, waarbij het interactieformaat tussen de gebruiker en het model onderbelicht blijft. In bestaande werken interacteren gebruikers vaak met VideoLLM's door de hele video en een query als invoer te gebruiken, waarna het model een reactie genereert. Dit interactieformaat beperkt de toepassing van VideoLLM's in scenario's zoals begrip van live-streaming waar video's niet eindigen en reacties in realtime nodig zijn, en leidt ook tot onbevredigende prestaties bij tijdsgevoelige taken die vereisen dat videosegmenten gelokaliseerd worden. In dit artikel richten we ons op een video-tekst duet interactieformaat. Dit interactieformaat wordt gekenmerkt door de continue weergave van de video, waarbij zowel de gebruiker als het model hun tekstberichten op elk moment tijdens de videoweergave kunnen invoegen. Wanneer een tekstbericht eindigt, blijft de video doorspelen, vergelijkbaar met de afwisseling van twee artiesten in een duet. We construeren MMDuetIT, een video-tekst trainingsdataset die is ontworpen om VideoLLM's aan te passen aan het video-tekst duet interactieformaat. We introduceren ook de Multi-Answer Grounded Video Question Answering (MAGQA) taak om de real-time reactievermogen van VideoLLM's te beoordelen. Getraind op MMDuetIT, toont MMDuet aan dat het aannemen van het video-tekst duet interactieformaat het model in staat stelt significante verbeteringen te behalen in verschillende tijdsgevoelige taken (76% CIDEr bij YouCook2 dense video captioning, 90% mAP bij QVHighlights highlight detection en 25% [email protected] bij Charades-STA temporal video grounding) met minimale trainingsinspanningen, en stelt VideoLLM's ook in staat om te reageren terwijl de video wordt afgespeeld. Code, data en demo zijn beschikbaar op: https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary