ChatPaper.aiChatPaper

Explorando el Efecto del Aprendizaje por Refuerzo en la Comprensión de Videos: Perspectivas desde SEED-Bench-R1

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

March 31, 2025
Autores: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI

Resumen

Los recientes avances en la generación de Cadenas de Pensamiento (COT, por sus siglas en inglés) han mejorado significativamente las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs), con el aprendizaje por refuerzo (RL) emergiendo como un enfoque efectivo de posentrenamiento. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) heredan este potencial de razonamiento, pero siguen siendo poco explorados en tareas que requieren tanto percepción como razonamiento lógico. Para abordar esto, presentamos SEED-Bench-R1, un punto de referencia diseñado para evaluar sistemáticamente métodos de posentrenamiento para MLLMs en la comprensión de videos. Este incluye videos complejos del mundo real y tareas de planificación cotidiana en formato de preguntas de opción múltiple, que requieren percepción y razonamiento sofisticados. SEED-Bench-R1 evalúa la generalización a través de una jerarquía de tres niveles: escenarios dentro de la distribución, entre entornos y entre entornos-tareas, equipado con un conjunto de datos de entrenamiento a gran escala con respuestas de verdad fundamental fácilmente verificables. Utilizando Qwen2-VL-Instruct-7B como modelo base, comparamos RL con el ajuste fino supervisado (SFT), demostrando la eficiencia de datos de RL y su rendimiento superior tanto en tareas dentro de la distribución como fuera de ella, superando incluso a SFT en puntos de referencia generales de comprensión de videos como LongVideoBench. Nuestro análisis detallado revela que RL mejora la percepción visual, pero a menudo produce cadenas de razonamiento menos coherentes lógicamente. Identificamos limitaciones clave como razonamiento inconsistente y señales visuales pasadas por alto, y sugerimos mejoras futuras en el razonamiento del modelo base, el modelado de recompensas y la robustez de RL frente a señales ruidosas.
English
Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL's data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

Summary

AI-Generated Summary

PDF383April 2, 2025