CausaLab: Een schaalbare omgeving voor interactieve causale ontdekking voor AI-wetenschappers

Samenvatting

Wij introduceren CausaLab, een schaalbare omgeving voor het evalueren van interactieve causale ontdekking door LLM-agenten. In tegenstelling tot eerdere evaluaties beoordeelt CausaLab zowel of een agent een probleem kan oplossen met behulp van causaal bewijs als of het antwoord gefundeerd is in een getrouw teruggevonden causaal mechanisme. Elke episode plaatst een agent in een synthetisch laboratorium: het ontvangt eerdere meetgegevens, intervenieert op een manipulatorkristal en voorspelt de resonantiefrequentie van een apart gehouden reactorkristal dat door hetzelfde mechanisme wordt geregeerd. Het verborgen gegevensgenererende proces is een willekeurig gesampled structureel causaal model (SCM), dus succes vereist het terugvinden van zowel een causale graaf als structurele vergelijkingen, in plaats van het herinneren van voorkennis. Experimenten tonen een aanhoudende kloof tussen voorspelling en mechanismeherstel: in de puur observationele 6-knoopsetting bereikt GPT-5.2-high 92% taaknauwkeurigheid, maar slechts 0,471 all-edge F₁. Gemengde observatie-interventiestrategieën verbeteren de structurele getrouwheid, terwijl pure interventie zelfs voor sterke agenten moeilijk blijft. Wij identificeren vroegtijdig stoppen als een belangrijke zwakte en tonen aan dat consistentieverificatie dit vermindert. CausaLab scheidt daardoor voorspellend succes van causaal begrip en legt de grenzen van huidige LLM-agenten als experimentele causale redeneerders bloot.

English

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge F_1. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.