Видео-SALMONN-o1: Модель крупного языка с улучшенным рассуждением на основе аудио-визуальных данных
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model
February 17, 2025
Авторы: Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang
cs.AI
Аннотация
Недавние достижения в оптимизации рассуждений значительно улучшили возможности крупных языковых моделей (LLM), однако существующие усилия по улучшению рассуждений ограничивались решением математических задач и фокусировались на визуальных графических входах, игнорируя более широкие применения в общем понимании видео. В данной статье предлагается video-SALMONN-o1, первая открытая модель языка с улучшенными рассуждениями для аудио-визуального понимания видео задач общего характера. Для улучшения ее рассуждательных способностей мы разработали набор данных, требующий интенсивного использования рассуждений, включающий сложные аудио-визуальные вопросы с пошаговыми решениями. Мы также предлагаем оптимизацию прямого предпочтения процесса (pDPO), которая использует контрастный выбор шага для достижения эффективного моделирования вознаграждения на уровне шага, адаптированного для мультимодальных входов. Кроме того, мы представляем RivaBench, первый бенчмарк интенсивного использования рассуждений в понимании видео, включающий более 4 000 высококачественных вопросов-ответов, отобранных экспертами, по сценариям, таким как стендап-комедия, академические презентации и синтетическое обнаружение видео. video-SALMONN-o1 достигает улучшения точности на 3-8% по сравнению с базовым уровнем LLaVA-OneVision на различных видео-бенчмарках по рассуждениям. Кроме того, pDPO достигает улучшения на 6-8% по сравнению с моделью обучения с учителем на бенчмарке RivaBench. Улучшенные рассуждения позволяют video-SALMONN-o1 обнаруживать синтетические видео в режиме нулевой настройки.
English
While recent advancements in reasoning optimization have significantly
enhanced the capabilities of large language models (LLMs), existing efforts to
improve reasoning have been limited to solving mathematical problems and
focusing on visual graphical inputs, neglecting broader applications in general
video understanding.This paper proposes video-SALMONN-o1, the first open-source
reasoning-enhanced audio-visual LLM designed for general video understanding
tasks. To enhance its reasoning abilities, we develop a reasoning-intensive
dataset featuring challenging audio-visual questions with step-by-step
solutions. We also propose process direct preference optimization (pDPO), which
leverages contrastive step selection to achieve efficient step-level reward
modelling tailored for multimodal inputs. Additionally, we introduce RivaBench,
the first reasoning-intensive video understanding benchmark, featuring over
4,000 high-quality, expert-curated question-answer pairs across scenarios such
as standup comedy, academic presentations, and synthetic video detection.
video-SALMONN-o1 achieves 3-8% accuracy improvements over the LLaVA-OneVision
baseline across different video reasoning benchmarks. Besides, pDPO achieves
6-8% improvements compared to the supervised fine-tuning model on RivaBench.
Enhanced reasoning enables video-SALMONN-o1 zero-shot synthetic video detection
capabilities.Summary
AI-Generated Summary