Untersuchung der Auswirkungen von Reinforcement Learning auf das Verständnis von Videos: Erkenntnisse aus SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1
March 31, 2025
Autoren: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Generierung von Gedankenketten (Chain of Thought, COT) haben die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung erheblich verbessert, wobei sich Reinforcement Learning (RL) als effektive Methode für das Post-Training herausgestellt hat. Multimodale Large Language Models (MLLMs) erben dieses Potenzial zur logischen Schlussfolgerung, bleiben jedoch in Aufgaben, die sowohl Wahrnehmung als auch logisches Denken erfordern, weitgehend unerforscht. Um dies zu adressieren, führen wir SEED-Bench-R1 ein, einen Benchmark, der darauf abzielt, Post-Training-Methoden für MLLMs im Bereich des Videoverständnisses systematisch zu evaluieren. Er umfasst komplexe reale Videos und anspruchsvolle Alltagsplanungsaufgaben in Form von Multiple-Choice-Fragen, die eine ausgefeilte Wahrnehmung und logische Schlussfolgerung erfordern. SEED-Bench-R1 bewertet die Generalisierungsfähigkeit durch eine dreistufige Hierarchie: In-Distribution-, Cross-Environment- und Cross-Environment-Task-Szenarien, ausgestattet mit einem umfangreichen Trainingsdatensatz mit leicht überprüfbaren Ground-Truth-Antworten. Unter Verwendung von Qwen2-VL-Instruct-7B als Basismodell vergleichen wir RL mit Supervised Fine-Tuning (SFT) und zeigen, dass RL eine höhere Dateneffizienz und überlegene Leistung sowohl bei In-Distribution- als auch bei Out-of-Distribution-Aufgaben aufweist und sogar SFT auf allgemeinen Videoverständnis-Benchmarks wie LongVideoBench übertrifft. Unsere detaillierte Analyse zeigt, dass RL die visuelle Wahrnehmung verbessert, jedoch oft weniger logisch kohärente Gedankenketten erzeugt. Wir identifizieren zentrale Einschränkungen wie inkonsistentes logisches Denken und übersehene visuelle Hinweise und schlagen zukünftige Verbesserungen in der logischen Schlussfolgerung des Basismodells, der Belohnungsmodellierung und der Robustheit von RL gegenüber verrauschten Signalen vor.
English
Recent advancements in Chain of Thought (COT) generation have significantly
improved the reasoning capabilities of Large Language Models (LLMs), with
reinforcement learning (RL) emerging as an effective post-training approach.
Multimodal Large Language Models (MLLMs) inherit this reasoning potential but
remain underexplored in tasks requiring both perception and logical reasoning.
To address this, we introduce SEED-Bench-R1, a benchmark designed to
systematically evaluate post-training methods for MLLMs in video understanding.
It includes intricate real-world videos and complex everyday planning tasks in
the format of multiple-choice questions, requiring sophisticated perception and
reasoning. SEED-Bench-R1 assesses generalization through a three-level
hierarchy: in-distribution, cross-environment, and cross-environment-task
scenarios, equipped with a large-scale training dataset with easily verifiable
ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL
with supervised fine-tuning (SFT), demonstrating RL's data efficiency and
superior performance on both in-distribution and out-of-distribution tasks,
even outperforming SFT on general video understanding benchmarks like
LongVideoBench. Our detailed analysis reveals that RL enhances visual
perception but often produces less logically coherent reasoning chains. We
identify key limitations such as inconsistent reasoning and overlooked visual
cues, and suggest future improvements in base model reasoning, reward modeling,
and RL robustness against noisy signals.Summary
AI-Generated Summary