CauSight: Обучение суперсенсорике для визуального обнаружения причинно-следственных связей
CauSight: Learning to Supersense for Visual Causal Discovery
December 1, 2025
Авторы: Yize Zhang, Meiqi Chen, Sirui Chen, Bo Peng, Yanxi Zhang, Tianyu Li, Chaochao Lu
cs.AI
Аннотация
Каузальное мышление позволяет человеку понимать не только то, что наблюдается, но и причины происходящего. Чтобы воспроизвести эту способность в современных системах ИИ, мы представляем задачу визуального обнаружения причинно-следственных связей. Она требует от моделей вывода причинно-следственных отношений между визуальными объектами в различных сценариях, а не просто восприятия их наличия. Для этого мы сначала создали набор данных Visual Causal Graph (VCG-32K) — крупномасштабную коллекцию из более чем 32 000 изображений с размеченными причинно-следственными графами на уровне объектов, а затем разработали CauSight, новую модель обработки естественного языка и компьютерного зрения для выполнения визуального каузального анализа посредством причинно-обусловленного рассуждения. Наша методика обучения интегрирует три компонента: (1) курацию обучающих данных из VCG-32K, (2) «Дерево причинных мыслей» (ToCT) для синтеза траекторий рассуждений и (3) обучение с подкреплением с разработанным каузальным вознаграждением для совершенствования стратегии рассуждений. Эксперименты показывают, что CauSight превосходит GPT-4.1 в задаче визуального обнаружения причинно-следственных связей, демонстрируя более чем трехкратный прирост производительности (абсолютное улучшение на 21%). Наш код, модель и набор данных полностью открыты на странице проекта: https://github.com/OpenCausaLab/CauSight.
English
Causal thinking enables humans to understand not just what is seen, but why it happens. To replicate this capability in modern AI systems, we introduce the task of visual causal discovery. It requires models to infer cause-and-effect relations among visual entities across diverse scenarios instead of merely perceiving their presence. To this end, we first construct the Visual Causal Graph dataset (VCG-32K), a large-scale collection of over 32,000 images annotated with entity-level causal graphs, and further develop CauSight, a novel vision-language model to perform visual causal discovery through causally aware reasoning. Our training recipe integrates three components: (1) training data curation from VCG-32K, (2) Tree-of-Causal-Thought (ToCT) for synthesizing reasoning trajectories, and (3) reinforcement learning with a designed causal reward to refine the reasoning policy. Experiments show that CauSight outperforms GPT-4.1 on visual causal discovery, achieving over a threefold performance boost (21% absolute gain). Our code, model, and dataset are fully open-sourced at project page: https://github.com/OpenCausaLab/CauSight.