CauSight: Aprendendo a Superinterpretar para a Descoberta Visual de Causalidade
CauSight: Learning to Supersense for Visual Causal Discovery
December 1, 2025
Autores: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI
Resumo
O pensamento causal permite que os seres humanos compreendam não apenas o que é observado, mas também por que isso acontece. Para replicar essa capacidade nos sistemas modernos de IA, apresentamos a tarefa de descoberta causal visual. Esta tarefa exige que os modelos inferem relações de causa e efeito entre entidades visuais em diversos cenários, em vez de apenas perceber a sua presença. Para esse fim, construímos primeiro o conjunto de dados Visual Causal Graph (VCG-32K), uma coleção em larga escala com mais de 32.000 imagens anotadas com grafos causais a nível de entidade, e desenvolvemos ainda o CauSight, um novo modelo de visão e linguagem para realizar a descoberta causal visual através de um raciocínio com consciência causal. Nossa metodologia de treinamento integra três componentes: (1) curadoria de dados de treinamento a partir do VCG-32K, (2) a Árvore do Pensamento Causal (ToCT) para sintetizar trajetórias de raciocínio, e (3) aprendizagem por reforço com uma recompensa causal projetada para refinar a política de raciocínio. Os experimentos mostram que o CauSight supera o GPT-4V na descoberta causal visual, alcançando um aumento de desempenho superior a três vezes (ganho absoluto de 21%). Nosso código, modelo e conjunto de dados são totalmente de código aberto na página do projeto: https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.