VideoLLM weiß, wann es sprechen soll: Verbesserung der zeitkritischen Videoverständnis mit dem Video-Text-Duett-Interaktionsformat.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Autoren: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Zusammenfassung
Die jüngsten Forschungen zu Video Large Language Models (VideoLLM) konzentrieren sich hauptsächlich auf Modellarchitekturen und Trainingsdatensätze, wobei das Interaktionsformat zwischen Benutzer und Modell nur oberflächlich untersucht wird. In bestehenden Arbeiten interagieren Benutzer häufig mit VideoLLMs, indem sie das gesamte Video und eine Abfrage als Eingabe verwenden, woraufhin das Modell eine Antwort generiert. Dieses Interaktionsformat beschränkt die Anwendung von VideoLLMs in Szenarien wie dem Verständnis von Live-Streams, in denen Videos nicht enden und Antworten in Echtzeit erforderlich sind, und führt auch zu unbefriedigender Leistung bei zeitkritischen Aufgaben, die die Lokalisierung von Videosegmenten erfordern. In diesem Artikel konzentrieren wir uns auf ein Video-Text-Duett-Interaktionsformat. Dieses Interaktionsformat zeichnet sich durch die kontinuierliche Wiedergabe des Videos aus, und sowohl der Benutzer als auch das Modell können ihre Textnachrichten an beliebiger Stelle während der Videowiedergabe einfügen. Wenn eine Textnachricht endet, wird das Video weiter abgespielt, ähnlich wie bei zwei Künstlern in einem Duett. Wir erstellen MMDuetIT, einen Video-Text-Trainingsdatensatz, der darauf abzielt, VideoLLMs an das Video-Text-Duett-Interaktionsformat anzupassen. Wir führen auch die Multi-Answer Grounded Video Question Answering (MAGQA) Aufgabe ein, um die Echtzeit-Antwortfähigkeit von VideoLLMs zu bewerten. Mit dem Training auf MMDuetIT zeigt MMDuet, dass die Übernahme des Video-Text-Duett-Interaktionsformats dem Modell signifikante Verbesserungen bei verschiedenen zeitkritischen Aufgaben ermöglicht (76% CIDEr bei der dichten Videobeschreibung von YouCook2, 90% mAP bei der Highlight-Erkennung von QVHighlights und 25% [email protected] bei der zeitlichen Videoverankerung von Charades-STA) mit minimalem Schulungsaufwand und ermöglicht es VideoLLMs, in Echtzeit zu antworten, während das Video abgespielt wird. Code, Daten und Demo sind verfügbar unter: https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary