video-SALMONN: Spraakverbeterde Audio-Visuele Grote Taalmodellen
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Auteurs: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Samenvatting
Spraakbegrip als onderdeel van het meer algemene videobegrip met behulp van audio-visuele grote taalmodellen (av-LLM's) is een cruciaal maar onderbelicht aspect. Dit artikel introduceert video-SALMONN, een enkel end-to-end av-LLM voor videoverwerking, dat niet alleen visuele frame-sequenties, audio-gebeurtenissen en muziek kan begrijpen, maar ook spraak. Om de fijnmazige temporele informatie die nodig is voor spraakbegrip te verkrijgen, terwijl het efficiënt blijft voor andere video-elementen, stelt dit artikel een nieuwe multi-resolutie causale Q-Former (MRC Q-Former) structuur voor om vooraf getrainde audio-visuele encoders te verbinden met het backbone grote taalmodel. Bovendien worden specifieke trainingsbenaderingen voorgesteld, waaronder de diversiteitsverliesfunctie en het ongepaarde audio-visuele gemengde trainingsschema, om dominantie van frames of modaliteiten te voorkomen. Op het geïntroduceerde spraak-audio-visuele evaluatiebenchmark behaalt video-SALMONN meer dan 25\% absolute nauwkeurigheidsverbeteringen op de video-QA-taak en meer dan 30\% absolute nauwkeurigheidsverbeteringen op audio-visuele QA-taken met menselijke spraak. Daarnaast toont video-SALMONN opmerkelijke videobegrip en redeneervaardigheden op taken die ongekend zijn voor andere av-LLM's. Onze trainingscode en modelcheckpoints zijn beschikbaar op \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.