video-SALMONN-o1: Modello Linguistico Multimodale Audio-Visivo Potenziato per il Ragionamento
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
February 17, 2025
Autori: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI
Abstract
Mentre i recenti progressi nell'ottimizzazione del ragionamento hanno significativamente migliorato le capacità dei grandi modelli linguistici (LLM), gli sforzi esistenti per migliorare il ragionamento si sono limitati a risolvere problemi matematici e a concentrarsi su input grafici visivi, trascurando applicazioni più ampie nella comprensione generale dei video. Questo articolo propone video-SALMONN-o1, il primo LLM audio-visuale open-source potenziato per il ragionamento, progettato per compiti di comprensione generale dei video. Per migliorare le sue capacità di ragionamento, sviluppiamo un dataset intensivo di ragionamento che presenta domande audio-visuali impegnative con soluzioni passo-passo. Proponiamo inoltre l'ottimizzazione diretta delle preferenze di processo (pDPO), che sfrutta la selezione contrastiva dei passaggi per ottenere una modellazione efficiente delle ricompense a livello di passaggio, specifica per input multimodali. Inoltre, introduciamo RivaBench, il primo benchmark intensivo di ragionamento per la comprensione dei video, che presenta oltre 4.000 coppie domanda-risposta di alta qualità, curate da esperti, in scenari come commedia stand-up, presentazioni accademiche e rilevamento di video sintetici. video-SALMONN-o1 ottiene miglioramenti di precisione del 3-8% rispetto al baseline LLaVA-OneVision su diversi benchmark di ragionamento video. Inoltre, pDPO ottiene miglioramenti del 6-8% rispetto al modello di fine-tuning supervisionato su RivaBench. Il ragionamento potenziato consente a video-SALMONN-o1 di rilevare video sintetici in modalità zero-shot.
English
While recent advancements in reasoning optimization have significantly
enhanced the capabilities of large language models (LLMs), existing efforts to
improve reasoning have been limited to solving mathematical problems and
focusing on visual graphical inputs, neglecting broader applications in general
video understanding.This paper proposes video-SALMONN-o1, the first open-source
reasoning-enhanced audio-visual LLM designed for general video understanding
tasks. To enhance its reasoning abilities, we develop a reasoning-intensive
dataset featuring challenging audio-visual questions with step-by-step
solutions. We also propose process direct preference optimization (pDPO), which
leverages contrastive step selection to achieve efficient step-level reward
modelling tailored for multimodal inputs. Additionally, we introduce RivaBench,
the first reasoning-intensive video understanding benchmark, featuring over
4,000 high-quality, expert-curated question-answer pairs across scenarios such
as standup comedy, academic presentations, and synthetic video detection.
video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision
baseline across different video reasoning benchmarks. Besides, pDPO achieves
6-8% improvements compared to the supervised fine-tuning model on RivaBench.
Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection
capabilities.Summary
AI-Generated Summary