video-SALMONN-o1: Modello Linguistico Multimodale Audio-Visivo Potenziato per il Ragionamento

Abstract

Mentre i recenti progressi nell'ottimizzazione del ragionamento hanno significativamente migliorato le capacità dei grandi modelli linguistici (LLM), gli sforzi esistenti per migliorare il ragionamento si sono limitati a risolvere problemi matematici e a concentrarsi su input grafici visivi, trascurando applicazioni più ampie nella comprensione generale dei video. Questo articolo propone video-SALMONN-o1, il primo LLM audio-visuale open-source potenziato per il ragionamento, progettato per compiti di comprensione generale dei video. Per migliorare le sue capacità di ragionamento, sviluppiamo un dataset intensivo di ragionamento che presenta domande audio-visuali impegnative con soluzioni passo-passo. Proponiamo inoltre l'ottimizzazione diretta delle preferenze di processo (pDPO), che sfrutta la selezione contrastiva dei passaggi per ottenere una modellazione efficiente delle ricompense a livello di passaggio, specifica per input multimodali. Inoltre, introduciamo RivaBench, il primo benchmark intensivo di ragionamento per la comprensione dei video, che presenta oltre 4.000 coppie domanda-risposta di alta qualità, curate da esperti, in scenari come commedia stand-up, presentazioni accademiche e rilevamento di video sintetici. video-SALMONN-o1 ottiene miglioramenti di precisione del 3-8% rispetto al baseline LLaVA-OneVision su diversi benchmark di ragionamento video. Inoltre, pDPO ottiene miglioramenti del 6-8% rispetto al modello di fine-tuning supervisionato su RivaBench. Il ragionamento potenziato consente a video-SALMONN-o1 di rilevare video sintetici in modalità zero-shot.

English

While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.

video-SALMONN-o1: Modello Linguistico Multimodale Audio-Visivo Potenziato per il Ragionamento

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Abstract

Support