Strukturiertes kausales Videoverständnis durch Multi-Objekt-Ausrichtung

Zusammenfassung

Das menschliche Verständnis von Videodynamik basiert typischerweise auf einer strukturierten mentalen Repräsentation von Entitäten, Handlungen und zeitlichen Beziehungen, anstatt sich ausschließlich auf unmittelbares deduktives Denken zu stützen. Im Gegensatz dazu sind bestehende Video-LLMs weitgehend von unstrukturierter Videoreasoning abhängig, bei der kritische visuelle Evidenz in umfangreichen textuellen Beschreibungen eingebettet ist und zeitliche Kausalität oft nur schwach modelliert wird. Dies führt zu ineffizienten Prozessen und anfälliger Kausalschlussfolgerung. Um diese kognitive Lücke zu schließen, schlagen wir vor, vor der Reasoning-Phase eine kompakte Repräsentation salienter Ereignisse und ihrer kausalen Beziehungen zu konstruieren, die wir als Strukturierte Ereignisfakten bezeichnen. Diese strukturierte Prior dient als explizite Randbedingung, um präzises und kausal fundiertes Reasoning zu fördern, während gleichzeitig Zwischenevidenz leichter überprüfbar wird. Um Modelle effektiv auf solchen strukturierten Fakten zu trainieren, führen wir CausalFact-60K sowie eine vierstufige Trainingspipeline ein, bestehend aus Faktenabgleich, Format-Warm-Start, Denk-Warm-Start und verstärkungslernbasiertem Nachtraining. Während der RL-Phase stellen wir fest, dass dieses Framework konkurrierende Zielsetzungen einführt, da strukturelle Vollständigkeit und kausale Treue gegen die Reasoning-Länge abgewogen werden müssen, was die Optimierung erschwert. Wir bewältigen diese Herausforderung, indem wir die Optimierung als Multi-Objective Reinforcement Learning (MORL)-Problem formulieren und explizit auf die Pareto-Front optimieren, um diese Trade-offs auszubalancieren. Infolgedessen präsentieren wir Factum-4B, das zuverlässigeres Reasoning ermöglicht und eine stärkere Leistung bei anspruchsvollen Videoverständnisaufgaben mit feinkörniger zeitlicher Inferenz erzielt.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Strukturiertes kausales Videoverständnis durch Multi-Objekt-Ausrichtung

Structured Causal Video Reasoning via Multi-Objective Alignment

Zusammenfassung

Support