ChatPaper.aiChatPaper

video-SALMONN: 音声強化型オーディオビジュアル大規模言語モデル

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

June 22, 2024
著者: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI

要旨

より汎用的なビデオ理解の一要素としての音声理解は、音響視覚的大規模言語モデル(av-LLM)を用いた重要な研究領域でありながら、十分に研究されていない側面である。本論文では、ビデオ処理のための単一のエンドツーエンドav-LLMであるvideo-SALMONNを提案する。これは、視覚フレームシーケンス、音響イベント、音楽だけでなく、音声も理解することができる。音声理解に必要な細粒度の時間情報を取得しつつ、他のビデオ要素に対して効率的であるために、本論文では、事前学習済みの音響視覚エンコーダとバックボーンの大規模言語モデルを接続するための新しいマルチレゾリューション因果Q-Former(MRC Q-Former)構造を提案する。さらに、フレームやモダリティの支配を避けるために、多様性損失とペアになっていない音響視覚混合トレーニングスキームを含む専用のトレーニング手法を提案する。導入された音声-音響-視覚評価ベンチマークにおいて、video-SALMONNは、ビデオQAタスクで25%以上の絶対精度向上を達成し、人間の音声を含む音響視覚QAタスクでは30%以上の絶対精度向上を達成した。さらに、video-SALMONNは、他のav-LLMでは前例のないタスクにおいて、卓越したビデオ理解と推論能力を示す。我々のトレーニングコードとモデルチェックポイントは、\url{https://github.com/bytedance/SALMONN/}で公開されている。
English
Speech understanding as an element of the more generic video understanding using audio-visual large language models (av-LLMs) is a crucial yet understudied aspect. This paper proposes video-SALMONN, a single end-to-end av-LLM for video processing, which can understand not only visual frame sequences, audio events and music, but speech as well. To obtain fine-grained temporal information required by speech understanding, while keeping efficient for other video elements, this paper proposes a novel multi-resolution causal Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders and the backbone large language model. Moreover, dedicated training approaches including the diversity loss and the unpaired audio-visual mixed training scheme are proposed to avoid frames or modality dominance. On the introduced speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\% absolute accuracy improvements on the video-QA task and over 30\% absolute accuracy improvements on audio-visual QA tasks with human speech. In addition, video-SALMONN demonstrates remarkable video comprehension and reasoning abilities on tasks that are unprecedented by other av-LLMs. Our training code and model checkpoints are available at \url{https://github.com/bytedance/SALMONN/}.

Summary

AI-Generated Summary

PDF51November 29, 2024