video-SALMONN: Sprachverbesserte Audio-Visuelle Große Sprachmodelle
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Autoren: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Zusammenfassung
Die Sprachverständnis als ein Element des allgemeineren Videoverständnisses unter Verwendung von audiovisuellen großen Sprachmodellen (av-LLMs) ist ein entscheidender, jedoch unteruntersuchter Aspekt. Dieser Artikel schlägt Video-SALMONN vor, ein einziges end-to-end av-LLM für die Videobearbeitung, das nicht nur visuelle Bildsequenzen, Audioereignisse und Musik, sondern auch Sprache verstehen kann. Um die für das Sprachverständnis erforderlichen feinkörnigen zeitlichen Informationen zu erhalten, während es effizient für andere Videoelemente bleibt, schlägt dieser Artikel eine neuartige Multi-Resolution Causal Q-Former (MRC Q-Former)-Struktur vor, um vortrainierte audiovisuelle Encoder und das Backbone große Sprachmodell zu verbinden. Darüber hinaus werden spezielle Schulungsansätze wie der Diversitätsverlust und das unpaarte audiovisuelle gemischte Schulungsschema vorgeschlagen, um Dominanz von Frames oder Modalitäten zu vermeiden. Auf dem vorgestellten Sprach-Audio-Video-Evaluierungsbenchmark erzielt Video-SALMONN mehr als 25\% absolute Genauigkeitsverbesserungen bei der Video-F&A-Aufgabe und über 30\% absolute Genauigkeitsverbesserungen bei Audio-Video-F&A-Aufgaben mit menschlicher Sprache. Darüber hinaus zeigt Video-SALMONN bemerkenswerte Videoverständnis- und Schlussfolgerungsfähigkeiten bei Aufgaben, die von anderen av-LLMs bisher unerreicht sind. Unser Schulungscode und Modellprüfpunkte sind verfügbar unter \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.Summary
AI-Generated Summary