Razonamiento Causal Estructurado en Video mediante Alineación Multiobjetivo

Resumen

La comprensión humana de la dinámica de vídeo se basa típicamente en una representación mental estructurada de entidades, acciones y relaciones temporales, en lugar de depender únicamente del razonamiento deductivo inmediato. Por el contrario, los Video-LLM existentes dependen en gran medida de un razonamiento de vídeo no estructurado, donde la evidencia visual crítica se incrusta en descripciones textuales prolijas y la causalidad temporal a menudo se modela débilmente. Esto conduce a procesos ineficientes e inferencias causales frágiles. Para cerrar esta brecha cognitiva, proponemos construir una representación compacta de eventos salientes y sus relaciones causales, que denominamos Hechos de Eventos Estructurados, antes de la etapa de razonamiento. Este conocimiento previo estructurado sirve como una restricción explícita para promover un razonamiento conciso y basado en la causalidad, al mismo tiempo que facilita la verificación de la evidencia intermedia. Para entrenar modelos eficazmente con dichos hechos estructurados, presentamos CausalFact-60K y un pipeline de entrenamiento de cuatro etapas que comprende alineación de hechos, inicio asistido de formato, inicio asistido de pensamiento y post-entrenamiento basado en aprendizaje por refuerzo. Durante la etapa de AR, encontramos que este marco introduce objetivos en competencia, ya que la integridad estructural y la fidelidad causal deben equilibrarse con la longitud del razonamiento, lo que dificulta la optimización. Abordamos este desafío formulando la optimización como un problema de Aprendizaje por Refuerzo Multiobjetivo (MORL) y optimizando explícitamente hacia la Frontera de Pareto para equilibrar estas compensaciones. Como resultado, presentamos Factum-4B, que produce un razonamiento más confiable y ofrece un rendimiento superior en tareas desafiantes de comprensión de vídeo que requieren inferencia temporal de grano fino.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Razonamiento Causal Estructurado en Video mediante Alineación Multiobjetivo

Structured Causal Video Reasoning via Multi-Objective Alignment

Resumen

Support