Структурированное причинное рассуждение в видео через многозадачное согласование

Аннотация

Человеческое понимание динамики видео обычно основано на структурированном ментальном представлении сущностей, действий и временных отношений, а не исключительно на непосредственном дедуктивном рассуждении. В отличие от этого, существующие Video-LLM в значительной степени полагаются на неструктурированное видео-рассуждение, где критически важные визуальные свидетельства встроены в пространные текстовые описания, а временная причинность часто слабо моделируется. Это приводит к неэффективным процессам и хрупкому причинно-следственному выводу. Чтобы преодолеть этот когнитивный разрыв, мы предлагаем строить компактное представление значимых событий и их причинно-следственных связей, которое мы называем Структурированными Фактами Событий, до этапа рассуждения. Эта структурированная априорная информация служит явным ограничением для обеспечения лаконичного и причинно обоснованного рассуждения, а также упрощает проверку промежуточных свидетельств. Для эффективного обучения моделей на таких структурированных фактах мы представляем CausalFact-60K и четырёхэтапный конвейер обучения, включающий согласование фактов, форматный разогрев, разогрев мышления и последующее обучение с подкреплением. На этапе обучения с подкреплением мы обнаружили, что данная框架 создает конкурирующие цели, поскольку структурная полнота и причинная достоверность должны быть сбалансированы с длиной рассуждения, что затрудняет оптимизацию. Мы решаем эту проблему, формулируя оптимизацию как задачу Многокритериального Обучения с Подкреплением и явно оптимизируя в сторону Парето-фронта для балансировки этих компромиссов. В результате мы представляем Factum-4B, который обеспечивает более надежные рассуждения и демонстрирует более высокую производительность в сложных задачах понимания видео, требующих детального временного вывода.

English

Human understanding of video dynamics is typically grounded in a structured mental representation of entities, actions, and temporal relations, rather than relying solely on immediate deductive reasoning. In contrast, existing Video-LLMs largely depend on unstructured video reasoning, where critical visual evidence is embedded in verbose textual descriptions and temporal causality is often weakly modeled. This leads to inefficient processes and fragile causal inference. To bridge this cognitive gap, we propose constructing a compact representation of salient events and their causal relationships, which we name Structured Event Facts, prior to the reasoning stage. This structured prior serves as an explicit constraint to promote concise and causally grounded reasoning, while also making intermediate evidence easier to verify. To effectively train models on such structured facts, we introduce CausalFact-60K and a four-stage training pipeline comprising facts alignment, format warm-start, thinking warm-start, and reinforcement learning-based post-training. During RL stage, we find that this framework introduces competing objectives, as structural completeness and causal fidelity must be balanced against reasoning length, making it difficult to optimize. We address this challenge by formulating the optimization as a Multi-Objective Reinforcement Learning (MORL) problem and explicitly optimizing toward the Pareto-Frontier to balance these trade-offs. As a result, we introduce Factum-4B, which yields more reliable reasoning and delivers stronger performance on challenging video understanding tasks requiring fine-grained temporal inference.

Структурированное причинное рассуждение в видео через многозадачное согласование

Structured Causal Video Reasoning via Multi-Objective Alignment

Аннотация

Support