Video-CoE: Reforzamiento de la Predicción de Eventos en Video mediante Cadena de Eventos

Resumen

A pesar de los avances en la aplicación de MLLMs para diversas tareas de video, la predicción de eventos en video (VEP, por sus siglas en inglés) sigue siendo un área relativamente poco explorada. La VEP requiere que el modelo realice un modelado temporal de grano fino de los videos y establezca relaciones lógicas entre los videos y los eventos futuros, algo con lo que los MLLMs actuales aún tienen dificultades. En este trabajo, presentamos primero una evaluación exhaustiva de los MLLMs líderes actuales en la tarea de VEP, revelando las razones detrás de sus predicciones inexactas, incluyendo la falta de capacidad de razonamiento lógico para la predicción de eventos futuros y la utilización insuficiente de la información visual. Para abordar estos desafíos, proponemos el paradigma Cadena de Eventos (CoE), que construye cadenas de eventos temporales para imponer implícitamente que el MLLM se centre en el contenido visual y las conexiones lógicas entre los videos y los eventos futuros, incentivando la capacidad de razonamiento del modelo con múltiples protocolos de entrenamiento. Los resultados experimentales en benchmarks públicos demuestran que nuestro método supera tanto a los MLLMs de código abierto como a los comerciales líderes, estableciendo un nuevo estado del arte en la tarea de VEP. Los códigos y modelos se publicarán pronto.

English

Despite advances in the application of MLLMs for various video tasks, video event prediction (VEP) remains relatively underexplored. VEP requires the model to perform fine-grained temporal modeling of videos and establish logical relationships between videos and future events, which current MLLMs still struggle with. In this work, we first present a comprehensive evaluation of current leading MLLMs on the VEP task, revealing the reasons behind their inaccurate predictions, including lack of logical reasoning ability for future events prediction and insufficient utilization of visual information. To address these challenges, we propose Chain of Events (CoE) paradigm, which constructs temporal event chains to implicitly enforce MLLM focusing on the visual content and the logical connections between videos and future events, incentivizing model's reasoning capability with multiple training protocols. Experimental results on public benchmarks demonstrate that our method outperforms both leading open-source and commercial MLLMs, establishing a new state-of-the-art on the VEP task. Codes and models will be released soon.

Video-CoE: Reforzamiento de la Predicción de Eventos en Video mediante Cadena de Eventos

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Resumen

Support