CauSight: Lernen zur visuellen Kausalerkenntnis durch Supersensing
CauSight: Learning to Supersense for Visual Causal Discovery
December 1, 2025
papers.authors: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI
papers.abstract
Kausales Denken ermöglicht es Menschen nicht nur zu verstehen, was gesehen wird, sondern auch warum es geschieht. Um diese Fähigkeit in modernen KI-Systemen nachzubilden, führen wir die Aufgabe der visuellen Kausalitätsentdeckung ein. Sie erfordert, dass Modelle Ursache-Wirkungs-Beziehungen zwischen visuellen Entitäten in verschiedenen Szenarien inferieren, anstatt lediglich deren Vorhandensein wahrzunehmen. Zu diesem Zweck konstruieren wir zunächst den Visual Causal Graph-Datensatz (VCG-32K), eine groß angelegte Sammlung von über 32.000 Bildern, die mit Entitäten-basierten Kausalgrafiken annotiert sind, und entwickeln weiterhin CauSight, ein neuartiges Vision-Language-Modell zur Durchführung visueller Kausalitätsentdeckung durch kausalitätsbewusstes Reasoning. Unser Trainingsansatz integriert drei Komponenten: (1) Aufbereitung von Trainingsdaten aus VCG-32K, (2) Tree-of-Causal-Thought (ToCT) zur Synthese von Reasoning-Pfaden und (3) Verstärkendes Lernen mit einer speziell entwickelten kausalen Belohnungsfunktion zur Verfeinerung der Reasoning-Strategie. Experimente zeigen, dass CauSight GPT-4.1 bei der visuellen Kausalitätsentdeckung übertrifft und eine mehr als dreifache Leistungssteigerung (21 % absoluter Zugewinn) erzielt. Unser Code, Modell und Datensatz sind vollständig auf der Projektseite quelloffen verfügbar: https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.