ChatPaper.aiChatPaper

Exploration de l'effet de l'apprentissage par renforcement sur la compréhension vidéo : Perspectives issues de SEED-Bench-R1

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

March 31, 2025
Auteurs: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI

Résumé

Les récents progrès dans la génération de Chaînes de Pensée (Chain of Thought, COT) ont considérablement amélioré les capacités de raisonnement des Grands Modèles de Langage (Large Language Models, LLMs), avec l'apprentissage par renforcement (Reinforcement Learning, RL) émergeant comme une approche efficace en post-formation. Les Grands Modèles de Langage Multimodaux (Multimodal Large Language Models, MLLMs) héritent de ce potentiel de raisonnement, mais restent sous-explorés dans les tâches nécessitant à la fois perception et raisonnement logique. Pour remédier à cela, nous introduisons SEED-Bench-R1, un benchmark conçu pour évaluer systématiquement les méthodes de post-formation pour les MLLMs dans la compréhension vidéo. Il inclut des vidéos complexes du monde réel et des tâches de planification quotidienne sous forme de questions à choix multiples, nécessitant une perception et un raisonnement sophistiqués. SEED-Bench-R1 évalue la généralisation à travers une hiérarchie à trois niveaux : scénarios intra-distribution, inter-environnement et inter-environnement-tâche, et est équipé d'un ensemble de données d'entraînement à grande échelle avec des réponses de référence facilement vérifiables. En utilisant Qwen2-VL-Instruct-7B comme modèle de base, nous comparons le RL au réglage fin supervisé (Supervised Fine-Tuning, SFT), démontrant l'efficacité en données du RL et sa performance supérieure sur les tâches intra-distribution et hors-distribution, surpassant même le SFT sur des benchmarks de compréhension vidéo générale comme LongVideoBench. Notre analyse détaillée révèle que le RL améliore la perception visuelle mais produit souvent des chaînes de raisonnement moins cohérentes sur le plan logique. Nous identifions des limitations clés telles que l'incohérence du raisonnement et la négligence des indices visuels, et suggérons des améliorations futures dans le raisonnement du modèle de base, la modélisation des récompenses et la robustesse du RL face aux signaux bruyants.
English
Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL's data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

Summary

AI-Generated Summary

PDF383April 2, 2025