CauSight: 시각적 인과관계 발견을 위한 초감각 학습
CauSight: Learning to Supersense for Visual Causal Discovery
December 1, 2025
저자: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI
초록
인과적 사고는 인간으로 하여금 단순히 관찰되는 현상이 아닌 그 발생 원인을 이해할 수 있게 합니다. 현대 AI 시스템에서 이러한 능력을 재현하기 위해 우리는 시각적 인과관계 발견 과제를 소개합니다. 이 과제는 모델이 다양한 시나리오에서 시각적 개체들의 존재를 단순히 인지하는 것을 넘어 그들 간의 원인-결과 관계를 추론하도록 요구합니다. 이를 위해 우리는 먼저 32,000장 이상의 이미지로 구성된 대규모 데이터셋인 VCG-32K를 구축하였으며, 여기에는 개체 수준의 인과관계 그래프 주석이 달려 있습니다. 더 나아가 인과 인식 추론을 통해 시각적 인과관계 발견을 수행하는 새로운 vision-language 모델인 CauSight를 개발했습니다. 우리의 훈련 방법론은 세 가지 구성 요소를 통합합니다: (1) VCG-32K의 훈련 데이터 큐레이션, (2) 추론 경로 합성을 위한 Tree-of-Causal-Thought(ToCT), (3) 추론 정책을 개선하기 위해 설계된 인과 보상과의 강화 학습. 실험 결과, CauSight는 시각적 인과관계 발견 과제에서 GPT-4.1을 능가하며 3배 이상의 성능 향상(21% 절대적 향상)을 달성했습니다. 우리의 코드, 모델 및 데이터셋은 프로젝트 페이지(https://github.com/OpenCausaLab/CauSight)에서 완전히 오픈소스로 공개됩니다.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.