video-SALMONN: Modelli Linguistici Multimodali Audio-Visivi Potenziati dal Parlato

Abstract

La comprensione del parlato come elemento della più ampia comprensione video utilizzando modelli linguistici di grandi dimensioni audio-visivi (av-LLM) è un aspetto cruciale ma ancora poco studiato. Questo articolo propone video-SALMONN, un singolo av-LLM end-to-end per l'elaborazione video, in grado di comprendere non solo sequenze di frame visivi, eventi audio e musica, ma anche il parlato. Per ottenere le informazioni temporali dettagliate necessarie per la comprensione del parlato, mantenendo al contempo l'efficienza per altri elementi video, questo articolo propone una nuova struttura multi-risoluzione causale Q-Former (MRC Q-Former) per collegare gli encoder audio-visivi pre-addestrati e il modello linguistico di grandi dimensioni di base. Inoltre, vengono proposte approcci di addestramento dedicati, tra cui la funzione di perdita di diversità e lo schema di addestramento misto audio-visivo non accoppiato, per evitare la dominanza di frame o modalità. Sul benchmark di valutazione audio-visivo con parlato introdotto, video-SALMONN ottiene miglioramenti di accuratezza assoluta superiori al 25% nel task di video-QA e oltre il 30% nei task di QA audio-visivi con parlato umano. Inoltre, video-SALMONN dimostra notevoli capacità di comprensione e ragionamento video su task che non hanno precedenti con altri av-LLM. Il nostro codice di addestramento e i checkpoint del modello sono disponibili all'indirizzo \url{https://github.com/bytedance/SALMONN/}.

English

Speech understanding as an element of the more generic video understanding using audio-visual large language models (av-LLMs) is a crucial yet understudied aspect. This paper proposes video-SALMONN, a single end-to-end av-LLM for video processing, which can understand not only visual frame sequences, audio events and music, but speech as well. To obtain fine-grained temporal information required by speech understanding, while keeping efficient for other video elements, this paper proposes a novel multi-resolution causal Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders and the backbone large language model. Moreover, dedicated training approaches including the diversity loss and the unpaired audio-visual mixed training scheme are proposed to avoid frames or modality dominance. On the introduced speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\% absolute accuracy improvements on the video-QA task and over 30\% absolute accuracy improvements on audio-visual QA tasks with human speech. In addition, video-SALMONN demonstrates remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other av-LLMs. Our training code and model checkpoints are available at \url{https://github.com/bytedance/SALMONN/}.

video-SALMONN: Modelli Linguistici Multimodali Audio-Visivi Potenziati dal Parlato

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Abstract

Support