video-SALMONN: 음성 강화 오디오-비주얼 대형 언어 모델
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
저자: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
초록
오디오-비주얼 대형 언어 모델(av-LLM)을 사용한 비디오 이해의 한 요소로서의 음성 이해는 중요하지만 아직 충분히 연구되지 않은 분야입니다. 본 논문은 비디오 처리를 위한 단일 종단 간 av-LLM인 video-SALMONN을 제안하며, 이 모델은 시각적 프레임 시퀀스, 오디오 이벤트 및 음악뿐만 아니라 음성도 이해할 수 있습니다. 음성 이해에 필요한 세밀한 시간적 정보를 획득하면서도 다른 비디오 요소에 대해 효율성을 유지하기 위해, 본 논문은 사전 훈련된 오디오-비주얼 인코더와 백본 대형 언어 모델을 연결하는 새로운 다중 해상도 인과적 Q-Former(MRC Q-Former) 구조를 제안합니다. 또한, 프레임이나 모달리티의 지배를 방지하기 위해 다양성 손실(diversity loss)과 짝을 이루지 않은 오디오-비주얼 혼합 훈련 방식(unpaired audio-visual mixed training scheme)과 같은 전용 훈련 접근법을 제안합니다. 제안된 음성-오디오-비주얼 평가 벤치마크에서 video-SALMONN은 비디오 질의응답(video-QA) 작업에서 25% 이상의 절대 정확도 향상을, 인간 음성이 포함된 오디오-비주얼 질의응답 작업에서 30% 이상의 절대 정확도 향상을 달성했습니다. 또한, video-SALMONN은 다른 av-LLM들이 이전에 달성하지 못한 작업에서도 뛰어난 비디오 이해 및 추론 능력을 보여줍니다. 우리의 훈련 코드와 모델 체크포인트는 \url{https://github.com/bytedance/SALMONN/}에서 확인할 수 있습니다.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.Summary
AI-Generated Summary