CauSight: Imparare a Sovrasensorializzare per la Scoperta di Relazioni Causali Visive
CauSight: Learning to Supersense for Visual Causal Discovery
December 1, 2025
Autori: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI
Abstract
Il pensiero causale consente agli esseri umani di comprendere non solo ciò che viene osservato, ma anche il perché accade. Per replicare questa capacità nei moderni sistemi di IA, introduciamo il compito della scoperta causale visiva. Esso richiede ai modelli di inferire relazioni di causa-effetto tra entità visive in scenari diversificati, anziché limitarsi a percepirne la presenza. A tal fine, abbiamo inizialmente costruito il dataset Visual Causal Graph (VCG-32K), una raccolta su larga scala di oltre 32.000 immagini annotate con grafi causali a livello di entità, e successivamente sviluppato CauSight, un innovativo modello visione-linguaggio progettato per effettuare scoperta causale visiva mediante ragionamento causalmente consapevole. La nostra metodologia di addestramento integra tre componenti: (1) curatela dei dati di training da VCG-32K, (2) Tree-of-Causal-Thought (ToCT) per sintetizzare traiettorie di ragionamento, e (3) apprendimento per rinforzo con una ricompensa causale progettata per affinare la politica di ragionamento. Gli esperimenti dimostrano che CauSight supera GPT-4.1 nella scoperta causale visiva, ottenendo un miglioramento prestazionale superiore al triplo (vantaggio assoluto del 21%). Il nostro codice, modello e dataset sono completamente open-source alla pagina del progetto: https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.