ChatPaper.aiChatPaper

Vidéo-SALMONN-o1 : Modèle de Langage Audiovisuel Large Amélioré par le Raisonnement

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

February 17, 2025
Auteurs: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI

Résumé

Alors que les récents progrès en optimisation du raisonnement ont considérablement amélioré les capacités des grands modèles de langage (GML), les efforts existants pour améliorer le raisonnement se sont limités à la résolution de problèmes mathématiques et à la focalisation sur des entrées graphiques visuelles, négligeant des applications plus larges dans la compréhension générale des vidéos. Cet article propose video-SALMONN-o1, le premier GML audiovisuel à code source ouvert amélioré par le raisonnement conçu pour des tâches de compréhension générale des vidéos. Pour améliorer ses capacités de raisonnement, nous développons un ensemble de données intensif en raisonnement présentant des questions audiovisuelles complexes avec des solutions étape par étape. Nous proposons également l'optimisation directe des préférences de processus (pDPO), qui exploite la sélection contrastive des étapes pour atteindre une modélisation efficace des récompenses au niveau des étapes adaptée aux entrées multimodales. De plus, nous introduisons RivaBench, le premier banc d'essai de compréhension vidéo intensif en raisonnement, comprenant plus de 4 000 paires question-réponse de haute qualité, expertement sélectionnées, couvrant des scénarios tels que le stand-up, les présentations académiques et la détection de vidéos synthétiques. video-SALMONN-o1 obtient des améliorations de précision de 3 à 8 % par rapport à la référence LLaVA-OneVision sur différents bancs d'essai de raisonnement vidéo. De plus, pDPO obtient des améliorations de 6 à 8 % par rapport au modèle de fine-tuning supervisé sur RivaBench. Le raisonnement amélioré permet à video-SALMONN-o1 d'avoir des capacités de détection de vidéos synthétiques en zéro-shot.
English
While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.

Summary

AI-Generated Summary

PDF82February 18, 2025