CausaLab: Eine skalierbare Umgebung für interaktive kausale Entdeckung für KI-Wissenschaftler

Zusammenfassung

Wir stellen CausaLab vor, eine skalierbare Umgebung zur Bewertung interaktiver kausaler Entdeckung durch LLM-Agenten. Im Gegensatz zu früheren Bewertungen prüft CausaLab sowohl, ob ein Agent ein Problem mithilfe von Kausalevidenz lösen kann, als auch, ob seine Antwort auf einem getreuen, wiederhergestellten Kausalmechanismus beruht. Jede Episode platziert einen Agenten in einem synthetischen Labor: Er erhält zuvor erhobene Messdaten, greift in einen Manipulator-Kristall ein und sagt die Resonanzfrequenz eines zurückgehaltenen Reaktor-Kristalls vorher, der demselben Mechanismus unterliegt. Der verborgene datengenerierende Prozess ist ein zufällig gezogenes strukturelles Kausalmodell (SCM), sodass Erfolg sowohl die Wiederherstellung eines Kausalgraphen als auch der Strukturgleichungen erfordert – nicht das Abrufen von Vorwissen. Experimente zeigen eine anhaltende Kluft zwischen Vorhersage und Wiederherstellung des Mechanismus: In der rein beobachtenden 6-Knoten-Umgebung erreicht GPT-5.2-high eine Aufgabenkorrektheit von 92 %, jedoch nur einen All-Edge-F₁-Wert von 0,471. Gemischte Beobachtungs-Interventions-Strategien verbessern die strukturelle Treue, während reine Intervention selbst für starke Agenten schwierig bleibt. Wir identifizieren vorzeitiges Stoppen als eine Hauptschwäche und zeigen, dass Konsistenzverifikation diese abmildert. CausaLab trennt somit prädiktiven Erfolg von kausalem Verständnis und offenbart die Grenzen aktueller LLM-Agenten als experimentelle Kausaldenker.

English

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge F_1. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.