CausaLab : un environnement évolutif pour la découverte causale interactive destiné aux scientifiques en IA

Résumé

Nous présentons CausaLab, un environnement évolutif pour évaluer la découverte causale interactive par des agents LLM. Contrairement aux évaluations précédentes, CausaLab évalue à la fois la capacité d'un agent à résoudre un problème à l'aide de preuves causales et le fondement de sa réponse sur un mécanisme causal fidèlement reconstitué. Chaque épisode place un agent dans un laboratoire synthétique : il reçoit des enregistrements de mesures préalables, intervient sur un cristal manipulateur, et prédit la fréquence de résonance d'un cristal réacteur exclu, gouverné par le même mécanisme. Le processus générateur de données caché est un modèle causal structurel (SCM) échantillonné aléatoirement, de sorte que la réussite exige de reconstituer à la fois un graphe causal et des équations structurelles, plutôt que de recourir à des connaissances antérieures. Les expériences révèlent un écart persistant entre prédiction et reconstitution du mécanisme : dans le cadre purement observationnel à 6 nœuds, GPT-5.2-high atteint une précision de tâche de 92 % mais seulement un F_1 tous-arcs de 0,471. Les stratégies mixtes observation-intervention améliorent la fidélité structurelle, tandis que l'intervention pure reste difficile, même pour des agents robustes. Nous identifions l'arrêt prématuré comme une faiblesse majeure et montrons que la vérification de cohérence l'atténue. CausaLab sépare donc le succès prédictif de la compréhension causale et expose les limites des agents LLM actuels en tant que raisonneurs causaux expérimentaux.

English

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge F_1. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.