Ragionamento Causale Strutturato sui Video tramite Allineamento Multi-Obiettivo

Abstract

La comprensione umana della dinamica video si basa tipicamente su una rappresentazione mentale strutturata di entità, azioni e relazioni temporali, piuttosto che affidarsi esclusivamente al ragionamento deduttivo immediato. Al contrario, gli attuali Video-LLM dipendono in larga misura da un ragionamento video non strutturato, in cui le prove visive critiche sono incorporate in descrizioni testuali verbose e la causalità temporale è spesso modellata in modo debole. Ciò porta a processi inefficienti e inferenze causali fragili. Per colmare questo divario cognitivo, proponiamo di costruire una rappresentazione compatta di eventi salienti e delle loro relazioni causali, che chiamiamo Structured Event Facts (Fatti di Evento Strutturati), prima della fase di ragionamento. Questo priore strutturato funge da vincolo esplicito per promuovere un ragionamento conciso e causalmente fondato, rendendo anche le prove intermedie più facili da verificare. Per addestrare efficacemente i modelli su tali fatti strutturati, introduciamo CausalFact-60K e una pipeline di addestramento in quattro fasi che comprende: allineamento dei fatti, warm-start del formato, warm-start del pensiero e post-addestramento basato su reinforcement learning. Durante la fase di RL, abbiamo riscontrato che questo framework introduce obiettivi in competizione, poiché la completezza strutturale e la fedeltà causale devono essere bilanciate con la lunghezza del ragionamento, rendendo difficile l'ottimizzazione. Affrontiamo questa sfida formulando l'ottimizzazione come un problema di Multi-Objective Reinforcement Learning (MORL) e ottimizzando esplicitamente verso la Pareto-Frontier per bilanciare questi compromessi. Di conseguenza, introduciamo Factum-4B, che produce un ragionamento più affidabile e offre prestazioni superiori in compiti complessi di comprensione video che richiedono inferenze temporali fine-grained.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Ragionamento Causale Strutturato sui Video tramite Allineamento Multi-Obiettivo

Structured Causal Video Reasoning via Multi-Objective Alignment

Abstract

Support