CauSight: 視覚的因果関係発見のための超感覚学習
CauSight: Learning to Supersense for Visual Causal Discovery
December 1, 2025
著者: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI
要旨
因果推論は、単に見えているものを理解するだけでなく、その背後にある原因を理解する人間の能力を支えている。この能力を現代のAIシステムで再現するため、我々は視覚的因果発見という新たなタスクを提案する。このタスクでは、モデルが視覚的実体の存在を単に知覚するのではなく、多様なシナリオにおいてそれら間の因果関係を推論することを要求する。この目的に向けて、我々はまず、エンティティレベルの因果グラフで注釈付けされた32,000枚以上の画像からなる大規模データセットVCG-32Kを構築した。さらに、因果認識推論を通じて視覚的因果発見を行う新しい視覚言語モデルCauSightを開発した。我々の学習手法は3つの要素を統合している:(1) VCG-32Kからの学習データキュレーション、(2) 推論軌道を合成するための因果思考木(ToCT)、(3) 推論方針を洗練させるために設計された因果報酬を用いた強化学習。実験の結果、CauSightは視覚的因果発見タスクにおいてGPT-4.1を大幅に上回り、性能を3倍以上(21%の絶対向上)向上させることを示した。コード、モデル、データセットは全てプロジェクトページ(https://github.com/OpenCausaLab/CauSight )で公開している。
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.