ChatPaper.aiChatPaper

CauSight : Apprentissage de la supersensation pour la découverte de causalité visuelle

CauSight: Learning to Supersense for Visual Causal Discovery

December 1, 2025
papers.authors: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI

papers.abstract

La pensée causale permet aux humains de comprendre non seulement ce qui est observé, mais aussi pourquoi cela se produit. Pour reproduire cette capacité dans les systèmes d'IA modernes, nous introduisons la tâche de découverte causale visuelle. Celle-ci exige des modèles qu'ils infèrent des relations de cause à effet entre des entités visuelles dans divers scénarios, au lieu de simplement percevoir leur présence. À cette fin, nous construisons d'abord le jeu de données Visual Causal Graph (VCG-32K), une collection à grande échelle de plus de 32 000 images annotées avec des graphes causaux au niveau entité, et développons ensuite CauSight, un nouveau modèle vision-langage conçu pour réaliser la découverte causale visuelle via un raisonnement conscient de la causalité. Notre méthode d'apprentissage intègre trois composantes : (1) la curation de données d'entraînement provenant de VCG-32K, (2) l'Arbre-de-Pensée-Causale (ToCT) pour synthétiser des trajectoires de raisonnement, et (3) l'apprentissage par renforcement avec une récompense causale conçue pour affiner la politique de raisonnement. Les expériences montrent que CauSight surpasse GPT-4.1 en découverte causale visuelle, obtenant une amélioration de performance de plus du triple (gain absolu de 21 %). Notre code, modèle et jeu de données sont entièrement open-source sur la page du projet : https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.
PDF11December 3, 2025