video-SALMONN: Modelli Linguistici Multimodali Audio-Visivi Potenziati dal Parlato
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Autori: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Abstract
La comprensione del parlato come elemento della più ampia comprensione video
utilizzando modelli linguistici di grandi dimensioni audio-visivi (av-LLM) è un
aspetto cruciale ma ancora poco studiato. Questo articolo propone video-SALMONN,
un singolo av-LLM end-to-end per l'elaborazione video, in grado di comprendere
non solo sequenze di frame visivi, eventi audio e musica, ma anche il parlato.
Per ottenere le informazioni temporali dettagliate necessarie per la
comprensione del parlato, mantenendo al contempo l'efficienza per altri elementi
video, questo articolo propone una nuova struttura multi-risoluzione causale
Q-Former (MRC Q-Former) per collegare gli encoder audio-visivi pre-addestrati e
il modello linguistico di grandi dimensioni di base. Inoltre, vengono proposte
approcci di addestramento dedicati, tra cui la funzione di perdita di diversità e
lo schema di addestramento misto audio-visivo non accoppiato, per evitare la
dominanza di frame o modalità. Sul benchmark di valutazione audio-visivo con
parlato introdotto, video-SALMONN ottiene miglioramenti di accuratezza assoluta
superiori al 25% nel task di video-QA e oltre il 30% nei task di QA audio-visivi
con parlato umano. Inoltre, video-SALMONN dimostra notevoli capacità di
comprensione e ragionamento video su task che non hanno precedenti con altri
av-LLM. Il nostro codice di addestramento e i checkpoint del modello sono
disponibili all'indirizzo \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.