ChatPaper.aiChatPaper

CauSight: Leren om supersensen toe te passen voor visuele causale ontdekking

CauSight: Learning to Supersense for Visual Causal Discovery

December 1, 2025
Auteurs: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI

Samenvatting

Causaal denken stelt mensen in staat niet alleen te begrijpen wat wordt waargenomen, maar ook waarom het gebeurt. Om dit vermogen na te bootsen in moderne AI-systemen, introduceren we de taak van visuele causale ontdekking. Hierbij moeten modellen oorzaak-gevolgrelaties tussen visuele entiteiten in diverse scenario's afleiden, in plaats van slechts hun aanwezigheid waar te nemen. Hiertoe construeren we eerst de Visual Causal Graph dataset (VCG-32K), een grootschalige verzameling van meer dan 32.000 afbeeldingen geannoteerd met causaal-grafieken op entiteitsniveau, en ontwikkelen we verder CauSight, een nieuw vision-language model dat visuele causale ontdekking uitvoert via causaal-bewust redeneren. Onze trainingsaanpak integreert drie componenten: (1) curatie van trainingsdata uit VCG-32K, (2) Tree-of-Causal-Thought (ToCT) voor het synthetiseren van redeneertrajecten, en (3) reinforcement learning met een ontworpen causale beloning om het redeneerbeleid te verfijnen. Experimenten tonen aan dat CauSight beter presteert dan GPT-4V op visuele causale ontdekking, met een prestatieverbetering van meer dan drievoudig (21% absolute winst). Onze code, model en dataset zijn volledig open source beschikbaar op de projectpagina: https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.
PDF11December 3, 2025