Gestructureerd causaal videoredeneren via multi-doelstellingen-uitlijning

Samenvatting

Het menselijk begrip van videodynamiek is doorgaans verankerd in een gestructureerde mentale representatie van entiteiten, acties en temporele relaties, in plaats van uitsluitend te steunen op onmiddellijk deductief redeneren. In tegenstelling hiermee vertrouwen bestaande Video-LLM's grotendeels op ongestructureerde videoredenatie, waarbij kritisch visueel bewijs verweven zit in uitgebreide tekstuele beschrijvingen en temporele causaliteit vaak zwak wordt gemodelleerd. Dit leidt tot inefficiënte processen en fragiele causale inferentie. Om deze cognitieve kloof te overbruggen, stellen wij voor om vóór de redeneerfase een compacte representatie op te bouwen van salient gebeurtenissen en hun causale relaties, die wij Gestructureerde Gebeurtenis Feiten noemen. Deze gestructureerde prior dient als een expliciete constraint om beknopte en causaal onderbouwde redenering te bevorderen, terwijl het tussentijds bewijs ook beter verifieerbaar wordt. Om modellen effectief te trainen op dergelijke gestructureerde feiten, introduceren wij CausalFact-60K en een vierfasen trainingspipeline bestaande uit feitenalignering, format warm-start, denk-warm-start en reinforcement learning-gebaseerde na-training. Tijdens de RL-fase constateren wij dat dit framework concurrerende doelstellingen introduceert, omdat structurele volledigheid en causale trouw moeten worden afgewogen tegen de redeneerlengte, wat optimalisatie bemoeilijkt. Wij pakken deze uitdaging aan door de optimalisatie te formuleren als een Multi-Objective Reinforcement Learning (MORL) probleem en expliciet te optimaliseren richting de Pareto-frontier om deze afwegingen in balans te brengen. Als resultaat introduceren wij Factum-4B, dat tot betrouwbaardere redenering leidt en sterkere prestaties levert op uitdagende videobegriptaken die fijnmazige temporele inferentie vereisen.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Gestructureerd causaal videoredeneren via multi-doelstellingen-uitlijning

Structured Causal Video Reasoning via Multi-Objective Alignment

Samenvatting

Support