ChatPaper.aiChatPaper

CauSight: Aprendiendo a Supersentir para el Descubrimiento Visual de Causalidad

CauSight: Learning to Supersense for Visual Causal Discovery

December 1, 2025
Autores: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI

Resumen

El pensamiento causal permite a los seres humanos comprender no solo lo que se ve, sino por qué sucede. Para replicar esta capacidad en los sistemas modernos de IA, presentamos la tarea de descubrimiento causal visual. Esta requiere que los modelos infieran relaciones de causa y efecto entre entidades visuales en diversos escenarios, en lugar de simplemente percibir su presencia. Con este fin, primero construimos el conjunto de datos Visual Causal Graph (VCG-32K), una colección a gran escala de más de 32,000 imágenes anotadas con grafos causales a nivel de entidad, y además desarrollamos CauSight, un novedoso modelo de visión y lenguaje para realizar descubrimiento causal visual mediante un razonamiento consciente de la causalidad. Nuestra metodología de entrenamiento integra tres componentes: (1) curación de datos de entrenamiento a partir de VCG-32K, (2) Árbol-del-Pensamiento-Causal (ToCT) para sintetizar trayectorias de razonamiento, y (3) aprendizaje por refuerzo con una recompensa causal diseñada para refinar la política de razonamiento. Los experimentos muestran que CauSight supera a GPT-4.1 en descubrimiento causal visual, logrando una mejora de rendimiento de más del triple (una ganancia absoluta del 21%). Nuestro código, modelo y conjunto de datos son completamente de código abierto en la página del proyecto: https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.
PDF11December 3, 2025