ChatPaper.aiChatPaper

Исследование влияния обучения с подкреплением на понимание видео: Анализ данных из SEED-Bench-R1

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

March 31, 2025
Авторы: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI

Аннотация

Последние достижения в области генерации цепочек рассуждений (Chain of Thought, COT) значительно улучшили способности к логическому мышлению крупных языковых моделей (Large Language Models, LLMs), при этом обучение с подкреплением (Reinforcement Learning, RL) стало эффективным методом пост-обучения. Мультимодальные крупные языковые модели (Multimodal Large Language Models, MLLMs) наследуют этот потенциал рассуждений, но остаются недостаточно изученными в задачах, требующих как восприятия, так и логического мышления. Для решения этой проблемы мы представляем SEED-Bench-R1 — эталонный набор, разработанный для систематической оценки методов пост-обучения MLLMs в контексте понимания видео. Он включает сложные реальные видеоролики и задачи повседневного планирования, представленные в формате вопросов с множественным выбором, требующих развитого восприятия и рассуждений. SEED-Bench-R1 оценивает обобщающую способность через трехуровневую иерархию: внутри распределения, кросс-средовые и кросс-средовые-задачные сценарии, дополненные крупномасштабным набором данных для обучения с легко проверяемыми правильными ответами. Используя Qwen2-VL-Instruct-7B в качестве базовой модели, мы сравниваем RL с контролируемым тонким настраиванием (Supervised Fine-Tuning, SFT), демонстрируя эффективность RL по данным и его превосходство как на задачах внутри распределения, так и на задачах вне распределения, даже превосходя SFT на эталонных тестах общего понимания видео, таких как LongVideoBench. Наш детальный анализ показывает, что RL улучшает визуальное восприятие, но часто генерирует менее логически согласованные цепочки рассуждений. Мы выявляем ключевые ограничения, такие как непоследовательные рассуждения и упущенные визуальные подсказки, и предлагаем будущие улучшения в области базовой модели рассуждений, моделирования вознаграждений и устойчивости RL к шумовым сигналам.
English
Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL's data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

Summary

AI-Generated Summary

PDF383April 2, 2025