ChatPaper.aiChatPaper

Explorando o Efeito do Aprendizado por Reforço na Compreensão de Vídeo: Insights do SEED-Bench-R1

Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1

March 31, 2025
Autores: Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
cs.AI

Resumo

Os avanços recentes na geração de Cadeia de Pensamento (Chain of Thought - COT) melhoraram significativamente as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (Large Language Models - LLMs), com o aprendizado por reforço (Reinforcement Learning - RL) emergindo como uma abordagem eficaz de pós-treinamento. Os Modelos de Linguagem Multimodais de Grande Escala (Multimodal Large Language Models - MLLMs) herdam esse potencial de raciocínio, mas ainda são pouco explorados em tarefas que exigem tanto percepção quanto raciocínio lógico. Para abordar isso, introduzimos o SEED-Bench-R1, um benchmark projetado para avaliar sistematicamente métodos de pós-treinamento para MLLMs em compreensão de vídeos. Ele inclui vídeos complexos do mundo real e tarefas de planejamento cotidiano no formato de questões de múltipla escolha, exigindo percepção e raciocínio sofisticados. O SEED-Bench-R1 avalia a generalização por meio de uma hierarquia de três níveis: cenários dentro da distribuição, entre ambientes e entre ambientes e tarefas, equipado com um grande conjunto de dados de treinamento com respostas verdadeiras facilmente verificáveis. Usando o Qwen2-VL-Instruct-7B como modelo base, comparamos o RL com o ajuste fino supervisionado (Supervised Fine-Tuning - SFT), demonstrando a eficiência de dados do RL e seu desempenho superior tanto em tarefas dentro da distribuição quanto fora dela, superando até mesmo o SFT em benchmarks gerais de compreensão de vídeos, como o LongVideoBench. Nossa análise detalhada revela que o RL melhora a percepção visual, mas frequentemente produz cadeias de raciocínio menos coerentes logicamente. Identificamos limitações-chave, como raciocínio inconsistente e pistas visuais negligenciadas, e sugerimos melhorias futuras no raciocínio do modelo base, modelagem de recompensas e robustez do RL contra sinais ruidosos.
English
Recent advancements in Chain of Thought (COT) generation have significantly improved the reasoning capabilities of Large Language Models (LLMs), with reinforcement learning (RL) emerging as an effective post-training approach. Multimodal Large Language Models (MLLMs) inherit this reasoning potential but remain underexplored in tasks requiring both perception and logical reasoning. To address this, we introduce SEED-Bench-R1, a benchmark designed to systematically evaluate post-training methods for MLLMs in video understanding. It includes intricate real-world videos and complex everyday planning tasks in the format of multiple-choice questions, requiring sophisticated perception and reasoning. SEED-Bench-R1 assesses generalization through a three-level hierarchy: in-distribution, cross-environment, and cross-environment-task scenarios, equipped with a large-scale training dataset with easily verifiable ground-truth answers. Using Qwen2-VL-Instruct-7B as a base model, we compare RL with supervised fine-tuning (SFT), demonstrating RL's data efficiency and superior performance on both in-distribution and out-of-distribution tasks, even outperforming SFT on general video understanding benchmarks like LongVideoBench. Our detailed analysis reveals that RL enhances visual perception but often produces less logically coherent reasoning chains. We identify key limitations such as inconsistent reasoning and overlooked visual cues, and suggest future improvements in base model reasoning, reward modeling, and RL robustness against noisy signals.

Summary

AI-Generated Summary

PDF383April 2, 2025