CausaLab: Масштабируемая среда для интерактивного выявления причинно-следственных связей для ученых в области искусственного интеллекта

Аннотация

Мы представляем CausaLab — масштабируемую среду для оценки интерактивного выявления причинно-следственных связей агентами на основе больших языковых моделей (LLM). В отличие от предыдущих оценок, CausaLab проверяет как способность агента решить задачу с использованием причинных свидетельств, так и обоснованность его ответа в контексте достоверно восстановленного причинного механизма. Каждый эпизод помещает агента в синтетическую лабораторию: он получает предварительные результаты измерений, воздействует на манипулятор-кристалл и прогнозирует резонансную частоту изолированного кристалла-реактора, управляемого тем же механизмом. Скрытый процесс генерации данных представляет собой случайно выбранную структурную причинную модель (SCM), поэтому успех требует восстановления как причинного графа, так и структурных уравнений, а не обращения к априорным знаниям. Эксперименты демонстрируют устойчивый разрыв между прогнозированием и восстановлением механизма: в полностью наблюдательной конфигурации с 6 узлами модель GPT-5.2-high достигает 92% точности решения задачи, но лишь 0,471 по метрике all-edge F₁. Стратегии смешанного наблюдения и вмешательства улучшают структурную достоверность, тогда как чистое вмешательство остаётся сложным даже для сильных агентов. Мы выявляем преждевременную остановку как основную слабость и показываем, что проверка согласованности смягчает её. Таким образом, CausaLab разделяет предсказательный успех и причинное понимание, раскрывая ограничения современных LLM-агентов как экспериментальных рассуждателей о причинности.

English

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge F_1. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.