Het onderzoeken van het effect van reinforcement learning op videobegrip: Inzichten uit SEED-Bench-R1
Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1
March 31, 2025
Auteurs: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI
Samenvatting
Recente vooruitgang in Chain of Thought (COT)-generatie heeft de redeneervaardigheden van Large Language Models (LLMs) aanzienlijk verbeterd, waarbij reinforcement learning (RL) naar voren is gekomen als een effectieve post-trainingsaanpak. Multimodale Large Language Models (MLLMs) erven dit redeneervermogen, maar blijven onderbelicht in taken die zowel perceptie als logisch redeneren vereisen. Om dit aan te pakken, introduceren we SEED-Bench-R1, een benchmark ontworpen om post-trainingsmethoden voor MLLMs systematisch te evalueren in videobegrip. Het omvat complexe real-world video's en alledaagse planningsopdrachten in de vorm van meerkeuzevragen, waarvoor geavanceerde perceptie en redenering nodig zijn. SEED-Bench-R1 beoordeelt generalisatie via een drie niveaus tellende hiërarchie: in-distributie, cross-omgeving en cross-omgeving-taakscenario's, uitgerust met een grootschalige trainingsdataset met eenvoudig verifieerbare grondwaarheid-antwoorden. Met Qwen2-VL-Instruct-7B als basismodel vergelijken we RL met supervised fine-tuning (SFT), waarbij we de data-efficiëntie en superieure prestaties van RL aantonen, zowel voor in-distributie als out-of-distributie taken, en zelfs SFT overtreffen op algemene videobegrip-benchmarks zoals LongVideoBench. Onze gedetailleerde analyse toont aan dat RL visuele perceptie verbetert, maar vaak minder logisch coherente redeneerketens produceert. We identificeren belangrijke beperkingen zoals inconsistent redeneren en over het hoofd geziene visuele aanwijzingen, en suggereren toekomstige verbeteringen in basismodelredenering, beloningsmodellering en RL-robuustheid tegen ruisige signalen.
English
Recent advancements in Chain of Thought (COT) generation have significantly
improved the reasoning capabilities of Large Language Models (LLMs), with
reinforcement learning (RL) emerging as an effective post-training approach.
Multimodal Large Language Models (MLLMs) inherit this reasoning potential but
remain underexplored in tasks requiring both perception and logical reasoning.
To address this, we introduce SEED-Bench-R1, a benchmark designed to
systematically evaluate post-training methods for MLLMs in video understanding.
It includes intricate real-world videos and complex everyday planning tasks in
the format of multiple-choice questions, requiring sophisticated perception and
reasoning. SEED-Bench-R1 assesses generalization through a three-level
hierarchy: in-distribution, cross-environment, and cross-environment-task
scenarios, equipped with a large-scale training dataset with easily verifiable
ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL
with supervised fine-tuning (SFT), demonstrating RL's data efficiency and
superior performance on both in-distribution and out-of-distribution tasks,
even outperforming SFT on general video understanding benchmarks like
LongVideoBench. Our detailed analysis reveals that RL enhances visual
perception but often produces less logically coherent reasoning chains. We
identify key limitations such as inconsistent reasoning and overlooked visual
cues, and suggest future improvements in base model reasoning, reward modeling,
and RL robustness against noisy signals.Summary
AI-Generated Summary