video-SALMONN-o1: Redeneerverbeterd Audiovisueel Groot Taalmodel
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
February 17, 2025
Auteurs: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI
Samenvatting
Recente ontwikkelingen in redeneeroptimalisatie hebben aanzienlijk bijgedragen aan de mogelijkheden van grote taalmodellen (LLMs), maar bestaande inspanningen om redeneren te verbeteren waren beperkt tot het oplossen van wiskundige problemen en het focussen op visuele grafische invoer, waarbij bredere toepassingen in algemeen video begrip werden verwaarloosd. Dit artikel stelt video-SALMONN-o1 voor, het eerste open-source redeneer-versterkte audiovisuele LLM ontworpen voor algemene videobegripstaken. Om zijn redeneervermogen te verbeteren, ontwikkelen we een redeneer-intensieve dataset met uitdagende audiovisuele vragen met stapsgewijze oplossingen. We stellen ook process direct preference optimization (pDPO) voor, dat contrastieve stapselectie benut om efficiënte stapniveau beloningsmodellering te bereiken die is afgestemd op multimodale invoer. Daarnaast introduceren we RivaBench, de eerste redeneer-intensieve videobegrip benchmark, met meer dan 4.000 hoogwaardige, door experts samengestelde vraag-antwoordparen over scenario's zoals stand-up comedy, academische presentaties en synthetische videodetectie. video-SALMONN-o1 behaalt 3-8% nauwkeurigheidsverbeteringen ten opzichte van de LLaVA-OneVision baseline over verschillende videoredeneer benchmarks. Bovendien behaalt pDPO 6-8% verbeteringen in vergelijking met het model voor begeleid finetunen op RivaBench. Verbeterd redeneren stelt video-SALMONN-o1 in staat tot zero-shot synthetische videodetectiemogelijkheden.
English
While recent advancements in reasoning optimization have significantly
enhanced the capabilities of large language models (LLMs), existing efforts to
improve reasoning have been limited to solving mathematical problems and
focusing on visual graphical inputs, neglecting broader applications in general
video understanding.This paper proposes video-SALMONN-o1, the first open-source
reasoning-enhanced audio-visual LLM designed for general video understanding
tasks. To enhance its reasoning abilities, we develop a reasoning-intensive
dataset featuring challenging audio-visual questions with step-by-step
solutions. We also propose process direct preference optimization (pDPO), which
leverages contrastive step selection to achieve efficient step-level reward
modelling tailored for multimodal inputs. Additionally, we introduce RivaBench,
the first reasoning-intensive video understanding benchmark, featuring over
4,000 high-quality, expert-curated question-answer pairs across scenarios such
as standup comedy, academic presentations, and synthetic video detection.
video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision
baseline across different video reasoning benchmarks. Besides, pDPO achieves
6-8% improvements compared to the supervised fine-tuning model on RivaBench.
Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection
capabilities.Summary
AI-Generated Summary