다목적 정렬을 통한 구조화된 인과적 비디오 추론
Structured Causal Video Reasoning via Multi-Objective Alignment
April 6, 2026
저자: Zinuo Li, Yongxin Guo, Jun Liu, Jiawei Zhan, Xi Jiang, Chengjie Wang, Mohammed Bennamoun, Farid Boussaid, Feng Zheng, Qiuhong Ke
cs.AI
초록
사람의 동영상 이해는 일반적으로 즉각적인 연역적 추론에만 의존하기보다는 실체, 행동, 시간적 관계에 대한 구조화된 정신적 표상을 바탕으로 합니다. 이에 반해 기존 Video-LLM은 비구조화된 동영상 추론에 크게 의존하는데, 여기서는 중요한 시각적 증거가 장황한 텍스트 설명에 내재되고 시간적 인과관계가 종종 약하게 모델링됩니다. 이는 비효율적인 처리 과정과 취약한 인과 추론으로 이어집니다. 이러한 인지적 격차를 해소하기 위해 우리는 추론 단계 이전에 주요 사건들과 그 인과관계를 압축적으로 표현하는 것을 제안하며, 이를 '구조화된 사건 사실(Structured Event Facts)'이라 명명합니다. 이 구조화된 사전 정보는 간결하고 인과에 기반한 추론을 촉진하는 명시적 제약으로 작용함과 동시에 중간 증거의 검증을 용이하게 합니다. 이러한 구조화된 사실에 대한 모델 학습을 효과적으로 수행하기 위해 CausalFact-60K 데이터셋과 사실 정렬, 형식 웜스타트, 사고 웜스타트, 강화 학습 기반 사후 훈련의 4단계 학습 파이프라인을 도입했습니다. RL 단계에서 이 프레임워크는 상충되는 목표를 야기한다는 것을 발견했는데, 구조적 완전성과 인과 충실도가 추론 길이와 균형을 이루어야 하기 때문에 최적화가 어렵습니다. 우리는 이 문제를 다목적 강화 학습(MORL) 문제로 공식화하고 파레토 최적선을 명시적으로 향해 최적화함으로써 이러한 상충 관계를 균형 있게 해결했습니다. 그 결과 더 신뢰할 수 있는 추론을 제공하고 세밀한 시간적 추론을 요구하는 까다로운 동영상 이해 과제에서 더 강력한 성능을 보이는 Factum-4B 모델을 소개합니다.
English
Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.