ChatPaper.aiChatPaper

video-SALMONN: Modelli Linguistici Multimodali Audio-Visivi Potenziati dal Parlato

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

June 22, 2024
Autori: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI

Abstract

La comprensione del parlato come elemento della più ampia comprensione video utilizzando modelli linguistici di grandi dimensioni audio-visivi (av-LLM) è un aspetto cruciale ma ancora poco studiato. Questo articolo propone video-SALMONN, un singolo av-LLM end-to-end per l'elaborazione video, in grado di comprendere non solo sequenze di frame visivi, eventi audio e musica, ma anche il parlato. Per ottenere le informazioni temporali dettagliate necessarie per la comprensione del parlato, mantenendo al contempo l'efficienza per altri elementi video, questo articolo propone una nuova struttura multi-risoluzione causale Q-Former (MRC Q-Former) per collegare gli encoder audio-visivi pre-addestrati e il modello linguistico di grandi dimensioni di base. Inoltre, vengono proposte approcci di addestramento dedicati, tra cui la funzione di perdita di diversità e lo schema di addestramento misto audio-visivo non accoppiato, per evitare la dominanza di frame o modalità. Sul benchmark di valutazione audio-visivo con parlato introdotto, video-SALMONN ottiene miglioramenti di accuratezza assoluta superiori al 25% nel task di video-QA e oltre il 30% nei task di QA audio-visivi con parlato umano. Inoltre, video-SALMONN dimostra notevoli capacità di comprensione e ragionamento video su task che non hanno precedenti con altri av-LLM. Il nostro codice di addestramento e i checkpoint del modello sono disponibili all'indirizzo \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding using audio-visual large language models (av-LLMs) is a crucial yet understudied aspect. This paper proposes video-SALMONN, a single end-to-end av-LLM for video processing, which can understand not only visual frame sequences, audio events and music, but speech as well. To obtain fine-grained temporal information required by speech understanding, while keeping efficient for other video elements, this paper proposes a novel multi-resolution causal Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders and the backbone large language model. Moreover, dedicated training approaches including the diversity loss and the unpaired audio-visual mixed training scheme are proposed to avoid frames or modality dominance. On the introduced speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\% absolute accuracy improvements on the video-QA task and over 30\% absolute accuracy improvements on audio-visual QA tasks with human speech. In addition, video-SALMONN demonstrates remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other av-LLMs. Our training code and model checkpoints are available at \url{https://github.com/bytedance/SALMONN/}.
PDF61January 31, 2026