Vidéo-SALMONN-o1 : Modèle de Langage Audiovisuel Large Amélioré par le Raisonnement
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
February 17, 2025
Auteurs: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI
Résumé
Alors que les récents progrès en optimisation du raisonnement ont considérablement amélioré les capacités des grands modèles de langage (GML), les efforts existants pour améliorer le raisonnement se sont limités à la résolution de problèmes mathématiques et à la focalisation sur des entrées graphiques visuelles, négligeant des applications plus larges dans la compréhension générale des vidéos. Cet article propose video-SALMONN-o1, le premier GML audiovisuel à code source ouvert amélioré par le raisonnement conçu pour des tâches de compréhension générale des vidéos. Pour améliorer ses capacités de raisonnement, nous développons un ensemble de données intensif en raisonnement présentant des questions audiovisuelles complexes avec des solutions étape par étape. Nous proposons également l'optimisation directe des préférences de processus (pDPO), qui exploite la sélection contrastive des étapes pour atteindre une modélisation efficace des récompenses au niveau des étapes adaptée aux entrées multimodales. De plus, nous introduisons RivaBench, le premier banc d'essai de compréhension vidéo intensif en raisonnement, comprenant plus de 4 000 paires question-réponse de haute qualité, expertement sélectionnées, couvrant des scénarios tels que le stand-up, les présentations académiques et la détection de vidéos synthétiques. video-SALMONN-o1 obtient des améliorations de précision de 3 à 8 % par rapport à la référence LLaVA-OneVision sur différents bancs d'essai de raisonnement vidéo. De plus, pDPO obtient des améliorations de 6 à 8 % par rapport au modèle de fine-tuning supervisé sur RivaBench. Le raisonnement amélioré permet à video-SALMONN-o1 d'avoir des capacités de détection de vidéos synthétiques en zéro-shot.
English
While recent advancements in reasoning optimization have significantly
enhanced the capabilities of large language models (LLMs), existing efforts to
improve reasoning have been limited to solving mathematical problems and
focusing on visual graphical inputs, neglecting broader applications in general
video understanding.This paper proposes video-SALMONN-o1, the first open-source
reasoning-enhanced audio-visual LLM designed for general video understanding
tasks. To enhance its reasoning abilities, we develop a reasoning-intensive
dataset featuring challenging audio-visual questions with step-by-step
solutions. We also propose process direct preference optimization (pDPO), which
leverages contrastive step selection to achieve efficient step-level reward
modelling tailored for multimodal inputs. Additionally, we introduce RivaBench,
the first reasoning-intensive video understanding benchmark, featuring over
4,000 high-quality, expert-curated question-answer pairs across scenarios such
as standup comedy, academic presentations, and synthetic video detection.
video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision
baseline across different video reasoning benchmarks. Besides, pDPO achieves
6-8% improvements compared to the supervised fine-tuning model on RivaBench.
Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection
capabilities.Summary
AI-Generated Summary