Raisonnement Causal Structuré dans les Vidéos par Alignement Multi-Objectif

Résumé

La compréhension humaine de la dynamique vidéo repose généralement sur une représentation mentale structurée des entités, des actions et des relations temporelles, plutôt que sur un raisonnement déductif immédiat. En revanche, les modèles linguistiques vidéo existants dépendent largement d'un raisonnement non structuré, où les preuves visuelles critiques sont noyées dans des descriptions textuelles verbeuses et la causalité temporelle est souvent modélisée de manière faible. Cela conduit à des processus inefficaces et à une inférence causale fragile. Pour combler cet écart cognitif, nous proposons de construire une représentation compacte des événements saillants et de leurs relations causales, que nous nommons Faits Événementiels Structurés, avant l'étape de raisonnement. Ce préalable structuré sert de contrainte explicite pour promouvoir un raisonnement concis et fondé sur la causalité, tout en facilitant la vérification des preuves intermédiaires. Pour entraîner efficacement les modèles sur de tels faits structurés, nous introduisons CausalFact-60K et un pipeline d'entraînement en quatre étapes comprenant l'alignement des faits, le préchauffage du format, le préchauffage de la réflexion et le post-entraînement par apprentissage par renforcement. Durant l'étape d'AR, nous constatons que ce cadre introduit des objectifs concurrents, car l'exhaustivité structurelle et la fidélité causale doivent être équilibrées avec la longueur du raisonnement, rendant l'optimisation difficile. Nous relevons ce défi en formulant l'optimisation comme un problème d'Apprentissage par Renforcement Multi-Objectifs et en optimisant explicitement vers la Frontière de Pareto pour équilibrer ces compromis. En conséquence, nous présentons Factum-4B, qui produit un raisonnement plus fiable et offre de meilleures performances sur des tâches complexes de compréhension vidéo nécessitant une inférence temporelle fine.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Raisonnement Causal Structuré dans les Vidéos par Alignement Multi-Objectif

Structured Causal Video Reasoning via Multi-Objective Alignment

Résumé

Support