Raciocínio Estruturado de Vídeo Causal através do Alinhamento Multiobjetivo

Resumo

A compreensão humana da dinâmica de vídeos normalmente está fundamentada numa representação mental estruturada de entidades, ações e relações temporais, em vez de depender exclusivamente de raciocínio dedutivo imediato. Em contraste, os Video-LLMs existentes dependem largamente de um raciocínio não estruturado sobre vídeos, onde a evidência visual crítica é incorporada em descrições textuais prolixas e a causalidade temporal é frequentemente modelada de forma fraca. Isto leva a processos ineficientes e a inferências causais frágeis. Para colmatar esta lacuna cognitiva, propomos a construção de uma representação compacta de eventos salientes e das suas relações causais, a que chamamos Factos de Eventos Estruturados, antes da fase de raciocínio. Este *prior* estruturado serve como uma restrição explícita para promover um raciocínio conciso e fundamentado causalmente, tornando também a evidência intermédia mais fácil de verificar. Para treinar modelos eficazmente com base nestes factos estruturados, introduzimos o CausalFact-60K e um *pipeline* de treino de quatro fases que compreende alinhamento de factos, *warm-start* de formato, *warm-start* de pensamento e pós-treino baseado em aprendizagem por reforço. Durante a fase de AR, verificamos que esta estrutura introduz objetivos concorrentes, uma vez que a completude estrutural e a fidelidade causal têm de ser equilibradas com o comprimento do raciocínio, tornando a otimização difícil. Resolvemos este desafio formulando a otimização como um problema de Aprendizagem por Reforço Multiobjetivo (MORL) e otimizando explicitamente para a Fronteira de Pareto de modo a equilibrar estes compromissos. Como resultado, introduzimos o Factum-4B, que produz um raciocínio mais fiável e oferece um desempenho superior em tarefas desafiantes de compreensão de vídeo que exigem inferência temporal de granularidade fina.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Raciocínio Estruturado de Vídeo Causal através do Alinhamento Multiobjetivo

Structured Causal Video Reasoning via Multi-Objective Alignment

Resumo

Support