ChatPaper.aiChatPaper

Video-SALMONN-01: Ein Audio-visuelles Großes Sprachmodell mit verbessertem Schlussfolgern.

video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

February 17, 2025
Autoren: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte in der Optimierung des Schlussfolgerns die Fähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Bisherige Bemühungen zur Verbesserung des Schlussfolgerns beschränkten sich jedoch auf die Lösung mathematischer Probleme und die Fokussierung auf visuelle grafische Eingaben, wobei breitere Anwendungen im allgemeinen Videoverständnis vernachlässigt wurden. Dieser Artikel schlägt video-SALMONN-o1 vor, das erste Open-Source-Sprachmodell mit audiovisueller Unterstützung, das für allgemeine Videoverständnisaufgaben entwickelt wurde. Um seine Schlussfolgerungsfähigkeiten zu verbessern, haben wir einen datenintensiven Datensatz entwickelt, der herausfordernde audiovisuelle Fragen mit schrittweisen Lösungen enthält. Wir schlagen auch die Prozessdirektpräferenzoptimierung (pDPO) vor, die kontrastive Schrittauswahl nutzt, um eine effiziente Modellierung von Schritt-für-Schritt-Belohnungen für multimodale Eingaben zu erreichen. Darüber hinaus führen wir RivaBench ein, den ersten datenintensiven Videoverstehensbenchmark, der über 4.000 hochwertige, von Experten kuratierte Frage-Antwort-Paare in Szenarien wie Stand-up-Comedy, akademischen Präsentationen und synthetischer Videodetektion umfasst. video-SALMONN-o1 erzielt eine Genauigkeitsverbesserung von 3-8% gegenüber dem LLaVA-OneVision-Benchmark in verschiedenen Video-Schlussfolgerungstests. Darüber hinaus erzielt pDPO Verbesserungen von 6-8% im Vergleich zum überwachten Feinabstimmungsmodell auf RivaBench. Die verbesserte Schlussfolgerung ermöglicht video-SALMONN-o1 Null-Schuss-Fähigkeiten zur Erkennung synthetischer Videos.
English
While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.

Summary

AI-Generated Summary

PDF82February 18, 2025