Video-SALMONN-01: Ein Audio-visuelles Großes Sprachmodell mit verbessertem Schlussfolgern.
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
February 17, 2025
Autoren: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte in der Optimierung des Schlussfolgerns die Fähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Bisherige Bemühungen zur Verbesserung des Schlussfolgerns beschränkten sich jedoch auf die Lösung mathematischer Probleme und die Fokussierung auf visuelle grafische Eingaben, wobei breitere Anwendungen im allgemeinen Videoverständnis vernachlässigt wurden. Dieser Artikel schlägt video-SALMONN-o1 vor, das erste Open-Source-Sprachmodell mit audiovisueller Unterstützung, das für allgemeine Videoverständnisaufgaben entwickelt wurde. Um seine Schlussfolgerungsfähigkeiten zu verbessern, haben wir einen datenintensiven Datensatz entwickelt, der herausfordernde audiovisuelle Fragen mit schrittweisen Lösungen enthält. Wir schlagen auch die Prozessdirektpräferenzoptimierung (pDPO) vor, die kontrastive Schrittauswahl nutzt, um eine effiziente Modellierung von Schritt-für-Schritt-Belohnungen für multimodale Eingaben zu erreichen. Darüber hinaus führen wir RivaBench ein, den ersten datenintensiven Videoverstehensbenchmark, der über 4.000 hochwertige, von Experten kuratierte Frage-Antwort-Paare in Szenarien wie Stand-up-Comedy, akademischen Präsentationen und synthetischer Videodetektion umfasst. video-SALMONN-o1 erzielt eine Genauigkeitsverbesserung von 3-8% gegenüber dem LLaVA-OneVision-Benchmark in verschiedenen Video-Schlussfolgerungstests. Darüber hinaus erzielt pDPO Verbesserungen von 6-8% im Vergleich zum überwachten Feinabstimmungsmodell auf RivaBench. Die verbesserte Schlussfolgerung ermöglicht video-SALMONN-o1 Null-Schuss-Fähigkeiten zur Erkennung synthetischer Videos.
English
While recent advancements in reasoning optimization have significantly
enhanced the capabilities of large language models (LLMs), existing efforts to
improve reasoning have been limited to solving mathematical problems and
focusing on visual graphical inputs, neglecting broader applications in general
video understanding.This paper proposes video-SALMONN-o1, the first open-source
reasoning-enhanced audio-visual LLM designed for general video understanding
tasks. To enhance its reasoning abilities, we develop a reasoning-intensive
dataset featuring challenging audio-visual questions with step-by-step
solutions. We also propose process direct preference optimization (pDPO), which
leverages contrastive step selection to achieve efficient step-level reward
modelling tailored for multimodal inputs. Additionally, we introduce RivaBench,
the first reasoning-intensive video understanding benchmark, featuring over
4,000 high-quality, expert-curated question-answer pairs across scenarios such
as standup comedy, academic presentations, and synthetic video detection.
video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision
baseline across different video reasoning benchmarks. Besides, pDPO achieves
6-8% improvements compared to the supervised fine-tuning model on RivaBench.
Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection
capabilities.Summary
AI-Generated Summary