ChatPaper.aiChatPaper

Untersuchung der Auswirkungen von Reinforcement Learning auf das Verständnis von Videos: Erkenntnisse aus SEED-Bench-R1

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

March 31, 2025
Autoren: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Generierung von Gedankenketten (Chain of Thought, COT) haben die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung erheblich verbessert, wobei sich Reinforcement Learning (RL) als effektive Methode für das Post-Training herausgestellt hat. Multimodale Large Language Models (MLLMs) erben dieses Potenzial zur logischen Schlussfolgerung, bleiben jedoch in Aufgaben, die sowohl Wahrnehmung als auch logisches Denken erfordern, weitgehend unerforscht. Um dies zu adressieren, führen wir SEED-Bench-R1 ein, einen Benchmark, der darauf abzielt, Post-Training-Methoden für MLLMs im Bereich des Videoverständnisses systematisch zu evaluieren. Er umfasst komplexe reale Videos und anspruchsvolle Alltagsplanungsaufgaben in Form von Multiple-Choice-Fragen, die eine ausgefeilte Wahrnehmung und logische Schlussfolgerung erfordern. SEED-Bench-R1 bewertet die Generalisierungsfähigkeit durch eine dreistufige Hierarchie: In-Distribution-, Cross-Environment- und Cross-Environment-Task-Szenarien, ausgestattet mit einem umfangreichen Trainingsdatensatz mit leicht überprüfbaren Ground-Truth-Antworten. Unter Verwendung von Qwen2-VL-Instruct-7B als Basismodell vergleichen wir RL mit Supervised Fine-Tuning (SFT) und zeigen, dass RL eine höhere Dateneffizienz und überlegene Leistung sowohl bei In-Distribution- als auch bei Out-of-Distribution-Aufgaben aufweist und sogar SFT auf allgemeinen Videoverständnis-Benchmarks wie LongVideoBench übertrifft. Unsere detaillierte Analyse zeigt, dass RL die visuelle Wahrnehmung verbessert, jedoch oft weniger logisch kohärente Gedankenketten erzeugt. Wir identifizieren zentrale Einschränkungen wie inkonsistentes logisches Denken und übersehene visuelle Hinweise und schlagen zukünftige Verbesserungen in der logischen Schlussfolgerung des Basismodells, der Belohnungsmodellierung und der Robustheit von RL gegenüber verrauschten Signalen vor.
English
Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL's data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

Summary

AI-Generated Summary

PDF383April 2, 2025