ChatPaper.aiChatPaper

video-SALMONN-o1: Redeneerverbeterd Audiovisueel Groot Taalmodel

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

February 17, 2025
Auteurs: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI

Samenvatting

Recente ontwikkelingen in redeneeroptimalisatie hebben aanzienlijk bijgedragen aan de mogelijkheden van grote taalmodellen (LLMs), maar bestaande inspanningen om redeneren te verbeteren waren beperkt tot het oplossen van wiskundige problemen en het focussen op visuele grafische invoer, waarbij bredere toepassingen in algemeen video begrip werden verwaarloosd. Dit artikel stelt video-SALMONN-o1 voor, het eerste open-source redeneer-versterkte audiovisuele LLM ontworpen voor algemene videobegripstaken. Om zijn redeneervermogen te verbeteren, ontwikkelen we een redeneer-intensieve dataset met uitdagende audiovisuele vragen met stapsgewijze oplossingen. We stellen ook process direct preference optimization (pDPO) voor, dat contrastieve stapselectie benut om efficiënte stapniveau beloningsmodellering te bereiken die is afgestemd op multimodale invoer. Daarnaast introduceren we RivaBench, de eerste redeneer-intensieve videobegrip benchmark, met meer dan 4.000 hoogwaardige, door experts samengestelde vraag-antwoordparen over scenario's zoals stand-up comedy, academische presentaties en synthetische videodetectie. video-SALMONN-o1 behaalt 3-8% nauwkeurigheidsverbeteringen ten opzichte van de LLaVA-OneVision baseline over verschillende videoredeneer benchmarks. Bovendien behaalt pDPO 6-8% verbeteringen in vergelijking met het model voor begeleid finetunen op RivaBench. Verbeterd redeneren stelt video-SALMONN-o1 in staat tot zero-shot synthetische videodetectiemogelijkheden.
English
While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.

Summary

AI-Generated Summary

PDF82February 18, 2025