ChatPaper.aiChatPaper

MUSEG: Refuerzo de la Comprensión Temporal en Videos mediante la Anclaje Multi-Segmento Consciente de Marcas de Tiempo

MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding

May 27, 2025
Autores: Fuwen Luo, Shengfeng Lou, Chi Chen, Ziyue Wang, Chenliang Li, Weizhou Shen, Jiyue Guo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu
cs.AI

Resumen

La comprensión temporal de videos es crucial para que los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) puedan razonar sobre eventos en videos. A pesar de los avances recientes en la comprensión general de videos, los MLLMs actuales aún enfrentan dificultades en el razonamiento temporal de grano fino. Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha explorado recientemente para abordar este problema, los enfoques existentes de RL siguen siendo limitados en su efectividad. En este trabajo, proponemos MUSEG, un método novedoso basado en RL que mejora la comprensión temporal mediante la introducción de una anclaje multi-segmento consciente de marcas de tiempo. MUSEG permite a los MLLMs alinear consultas con múltiples segmentos de video relevantes, promoviendo un razonamiento temporal más completo. Para facilitar un aprendizaje efectivo, diseñamos una receta de entrenamiento de RL personalizada con recompensas por fases que guía progresivamente al modelo hacia un razonamiento temporalmente anclado. Experimentos extensos en tareas de anclaje temporal y preguntas y respuestas (QA) sensibles al tiempo en videos demuestran que MUSEG supera significativamente a los métodos existentes y se generaliza bien en diversos escenarios de comprensión temporal. Consulte nuestro proyecto en https://github.com/THUNLP-MT/MUSEG.
English
Video temporal understanding is crucial for multimodal large language models (MLLMs) to reason over events in videos. Despite recent advances in general video understanding, current MLLMs still struggle with fine-grained temporal reasoning. While reinforcement learning (RL) has been explored to address this issue recently, existing RL approaches remain limited in effectiveness. In this work, we propose MUSEG, a novel RL-based method that enhances temporal understanding by introducing timestamp-aware multi-segment grounding. MUSEG enables MLLMs to align queries with multiple relevant video segments, promoting more comprehensive temporal reasoning. To facilitate effective learning, we design a customized RL training recipe with phased rewards that progressively guides the model toward temporally grounded reasoning. Extensive experiments on temporal grounding and time-sensitive video QA tasks demonstrate that MUSEG significantly outperforms existing methods and generalizes well across diverse temporal understanding scenarios. View our project at https://github.com/THUNLP-MT/MUSEG.
PDF22May 29, 2025