video-SALMONN-o1: Modelo de Lenguaje Grande Audiovisual Mejorado con Razonamiento

Resumen

Si bien los avances recientes en la optimización del razonamiento han mejorado significativamente las capacidades de los modelos de lenguaje grandes (LLMs), los esfuerzos existentes para mejorar el razonamiento se han limitado a resolver problemas matemáticos y centrarse en entradas visuales gráficas, descuidando aplicaciones más amplias en la comprensión general de videos. En este documento se propone video-SALMONN-o1, el primer LLM audiovisual de código abierto mejorado con razonamiento diseñado para tareas de comprensión general de videos. Para mejorar sus habilidades de razonamiento, desarrollamos un conjunto de datos intensivo en razonamiento que presenta preguntas desafiantes audiovisuales con soluciones paso a paso. También proponemos la optimización directa de preferencias de proceso (pDPO), que aprovecha la selección de pasos contrastivos para lograr una modelización eficiente de recompensas a nivel de paso adaptada para entradas multimodales. Además, presentamos RivaBench, el primer banco de pruebas de comprensión de videos intensivo en razonamiento, que incluye más de 4,000 pares de preguntas y respuestas de alta calidad, curados por expertos, en escenarios como comedia en vivo, presentaciones académicas y detección de videos sintéticos. video-SALMONN-o1 logra mejoras de precisión del 3-8% sobre la línea base LLaVA-OneVision en diferentes bancos de pruebas de razonamiento de videos. Además, pDPO logra mejoras del 6-8% en comparación con el modelo de ajuste fino supervisado en RivaBench. El razonamiento mejorado permite a video-SALMONN-o1 capacidades de detección de videos sintéticos sin necesidad de entrenamiento previo.

English

While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.