video-SALMONN-o1: Modelo de Lenguaje Grande Audiovisual Mejorado con Razonamiento
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
February 17, 2025
Autores: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI
Resumen
Si bien los avances recientes en la optimización del razonamiento han mejorado significativamente las capacidades de los modelos de lenguaje grandes (LLMs), los esfuerzos existentes para mejorar el razonamiento se han limitado a resolver problemas matemáticos y centrarse en entradas visuales gráficas, descuidando aplicaciones más amplias en la comprensión general de videos. En este documento se propone video-SALMONN-o1, el primer LLM audiovisual de código abierto mejorado con razonamiento diseñado para tareas de comprensión general de videos. Para mejorar sus habilidades de razonamiento, desarrollamos un conjunto de datos intensivo en razonamiento que presenta preguntas desafiantes audiovisuales con soluciones paso a paso. También proponemos la optimización directa de preferencias de proceso (pDPO), que aprovecha la selección de pasos contrastivos para lograr una modelización eficiente de recompensas a nivel de paso adaptada para entradas multimodales. Además, presentamos RivaBench, el primer banco de pruebas de comprensión de videos intensivo en razonamiento, que incluye más de 4,000 pares de preguntas y respuestas de alta calidad, curados por expertos, en escenarios como comedia en vivo, presentaciones académicas y detección de videos sintéticos. video-SALMONN-o1 logra mejoras de precisión del 3-8% sobre la línea base LLaVA-OneVision en diferentes bancos de pruebas de razonamiento de videos. Además, pDPO logra mejoras del 6-8% en comparación con el modelo de ajuste fino supervisado en RivaBench. El razonamiento mejorado permite a video-SALMONN-o1 capacidades de detección de videos sintéticos sin necesidad de entrenamiento previo.
English
While recent advancements in reasoning optimization have significantly
enhanced the capabilities of large language models (LLMs), existing efforts to
improve reasoning have been limited to solving mathematical problems and
focusing on visual graphical inputs, neglecting broader applications in general
video understanding.This paper proposes video-SALMONN-o1, the first open-source
reasoning-enhanced audio-visual LLM designed for general video understanding
tasks. To enhance its reasoning abilities, we develop a reasoning-intensive
dataset featuring challenging audio-visual questions with step-by-step
solutions. We also propose process direct preference optimization (pDPO), which
leverages contrastive step selection to achieve efficient step-level reward
modelling tailored for multimodal inputs. Additionally, we introduce RivaBench,
the first reasoning-intensive video understanding benchmark, featuring over
4,000 high-quality, expert-curated question-answer pairs across scenarios such
as standup comedy, academic presentations, and synthetic video detection.
video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision
baseline across different video reasoning benchmarks. Besides, pDPO achieves
6-8% improvements compared to the supervised fine-tuning model on RivaBench.
Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection
capabilities.Summary
AI-Generated Summary