Видео-SALMONN-o1: Модель крупного языка с улучшенным рассуждением на основе аудио-визуальных данных

Аннотация

Недавние достижения в оптимизации рассуждений значительно улучшили возможности крупных языковых моделей (LLM), однако существующие усилия по улучшению рассуждений ограничивались решением математических задач и фокусировались на визуальных графических входах, игнорируя более широкие применения в общем понимании видео. В данной статье предлагается video-SALMONN-o1, первая открытая модель языка с улучшенными рассуждениями для аудио-визуального понимания видео задач общего характера. Для улучшения ее рассуждательных способностей мы разработали набор данных, требующий интенсивного использования рассуждений, включающий сложные аудио-визуальные вопросы с пошаговыми решениями. Мы также предлагаем оптимизацию прямого предпочтения процесса (pDPO), которая использует контрастный выбор шага для достижения эффективного моделирования вознаграждения на уровне шага, адаптированного для мультимодальных входов. Кроме того, мы представляем RivaBench, первый бенчмарк интенсивного использования рассуждений в понимании видео, включающий более 4 000 высококачественных вопросов-ответов, отобранных экспертами, по сценариям, таким как стендап-комедия, академические презентации и синтетическое обнаружение видео. video-SALMONN-o1 достигает улучшения точности на 3-8% по сравнению с базовым уровнем LLaVA-OneVision на различных видео-бенчмарках по рассуждениям. Кроме того, pDPO достигает улучшения на 6-8% по сравнению с моделью обучения с учителем на бенчмарке RivaBench. Улучшенные рассуждения позволяют video-SALMONN-o1 обнаруживать синтетические видео в режиме нулевой настройки.

English

While recent advancements in reasoning optimization have significantly enhanced the capabilities of large language models (LLMs), existing efforts to improve reasoning have been limited to solving mathematical problems and focusing on visual graphical inputs, neglecting broader applications in general video understanding.This paper proposes video-SALMONN-o1, the first open-source reasoning-enhanced audio-visual LLM designed for general video understanding tasks. To enhance its reasoning abilities, we develop a reasoning-intensive dataset featuring challenging audio-visual questions with step-by-step solutions. We also propose process direct preference optimization (pDPO), which leverages contrastive step selection to achieve efficient step-level reward modelling tailored for multimodal inputs. Additionally, we introduce RivaBench, the first reasoning-intensive video understanding benchmark, featuring over 4,000 high-quality, expert-curated question-answer pairs across scenarios such as standup comedy, academic presentations, and synthetic video detection. video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision baseline across different video reasoning benchmarks. Besides, pDPO achieves 6-8% improvements compared to the supervised fine-tuning model on RivaBench. Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection capabilities.