Video-CoE: Rafforzare la Previsione di Eventi Video tramite Catena di Eventi

Abstract

Nonostante i progressi nell'applicazione dei MLLM per varie attività video, la previsione di eventi video (VEP) rimane relativamente poco esplorata. La VEP richiede che il modello esegua una modellizzazione temporale granulare dei video e stabilisca relazioni logiche tra i video e gli eventi futuri, operazioni con cui i MLLM attuali continuano a lottare. In questo lavoro, presentiamo prima una valutazione completa dei principali MLLM attuali sul compito di VEP, rivelando le ragioni alla base delle loro previsioni inaccurate, tra cui la mancanza di capacità di ragionamento logico per la previsione di eventi futuri e un utilizzo insufficiente delle informazioni visive. Per affrontare queste sfide, proponiamo il paradigma Catena di Eventi (CoE), che costruisce catene di eventi temporali per imporre implicitamente al MLLM di concentrarsi sul contenuto visivo e sulle connessioni logiche tra i video e gli eventi futuri, incentivando la capacità di ragionamento del modello con molteplici protocolli di addestramento. I risultati sperimentali su benchmark pubblici dimostrano che il nostro metodo supera sia i principali MLLM open-source che quelli commerciali, stabilendo un nuovo stato dell'arte nel compito di VEP. I codici e i modelli saranno rilasciati a breve.

English

Despite advances in the application of MLLMs for various video tasks, video event prediction (VEP) remains relatively underexplored. VEP requires the model to perform fine-grained temporal modeling of videos and establish logical relationships between videos and future events, which current MLLMs still struggle with. In this work, we first present a comprehensive evaluation of current leading MLLMs on the VEP task, revealing the reasons behind their inaccurate predictions, including lack of logical reasoning ability for future events prediction and insufficient utilization of visual information. To address these challenges, we propose Chain of Events (CoE) paradigm, which constructs temporal event chains to implicitly enforce MLLM focusing on the visual content and the logical connections between videos and future events, incentivizing model's reasoning capability with multiple training protocols. Experimental results on public benchmarks demonstrate that our method outperforms both leading open-source and commercial MLLMs, establishing a new state-of-the-art on the VEP task. Codes and models will be released soon.

Video-CoE: Rafforzare la Previsione di Eventi Video tramite Catena di Eventi

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Abstract

Support