video-SALMONN : Modèles de langage massifs audio-visuels améliorés par la parole
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models
June 22, 2024
Auteurs: Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
cs.AI
Résumé
La compréhension de la parole en tant qu'élément de la compréhension vidéo plus générique à l'aide de modèles de langage audio-visuels de grande échelle (av-LLMs) est un aspect crucial mais encore peu étudié. Cet article propose video-SALMONN, un av-LLM unique de bout en bout pour le traitement vidéo, capable de comprendre non seulement les séquences d'images visuelles, les événements audio et la musique, mais aussi la parole. Pour obtenir l'information temporelle fine nécessaire à la compréhension de la parole, tout en restant efficace pour les autres éléments vidéo, cet article propose une nouvelle structure multi-résolution causale Q-Former (MRC Q-Former) pour connecter les encodeurs audio-visuels pré-entraînés et le modèle de langage de grande échelle principal. De plus, des approches d'entraînement dédiées, incluant la perte de diversité et le schéma d'entraînement mixte audio-visuel non apparié, sont proposées pour éviter la dominance des images ou des modalités. Sur le benchmark d'évaluation parole-audio-visuel introduit, video-SALMONN obtient des améliorations absolues de précision de plus de 25 % sur la tâche de question-réponse vidéo (video-QA) et de plus de 30 % sur les tâches de question-réponse audio-visuelles impliquant la parole humaine. En outre, video-SALMONN démontre des capacités remarquables de compréhension et de raisonnement vidéo sur des tâches sans précédent par rapport à d'autres av-LLMs. Notre code d'entraînement et les points de contrôle du modèle sont disponibles à l'adresse \url{https://github.com/bytedance/SALMONN/}.
English
Speech understanding as an element of the more generic video understanding
using audio-visual large language models (av-LLMs) is a crucial yet
understudied aspect. This paper proposes video-SALMONN, a single end-to-end
av-LLM for video processing, which can understand not only visual frame
sequences, audio events and music, but speech as well. To obtain fine-grained
temporal information required by speech understanding, while keeping efficient
for other video elements, this paper proposes a novel multi-resolution causal
Q-Former (MRC Q-Former) structure to connect pre-trained audio-visual encoders
and the backbone large language model. Moreover, dedicated training approaches
including the diversity loss and the unpaired audio-visual mixed training
scheme are proposed to avoid frames or modality dominance. On the introduced
speech-audio-visual evaluation benchmark, video-SALMONN achieves more than 25\%
absolute accuracy improvements on the video-QA task and over 30\% absolute
accuracy improvements on audio-visual QA tasks with human speech. In addition,
video-SALMONN demonstrates remarkable video comprehension and reasoning
abilities on tasks that are unprecedented by other av-LLMs. Our training code
and model checkpoints are available at
\url{https://github.com/bytedance/SALMONN/}.Summary
AI-Generated Summary