CausaLab: Un Entorno Escalable para el Descubrimiento Causal Interactivo dirigido a Científicos de IA

Resumen

Presentamos CausaLab, un entorno escalable para evaluar el descubrimiento causal interactivo por parte de agentes basados en LLM. A diferencia de evaluaciones previas, CausaLab evalúa tanto si un agente puede resolver un problema utilizando evidencia causal como si su respuesta se fundamenta en un mecanismo causal recuperado fielmente. Cada episodio sitúa a un agente en un laboratorio sintético: recibe registros de mediciones previas, interviene sobre un cristal manipulador y predice la frecuencia de resonancia de un cristal reactor reservado, regido por el mismo mecanismo. El proceso generador de datos oculto es un modelo causal estructural (SCM) muestreado aleatoriamente, por lo que el éxito requiere recuperar tanto un grafo causal como ecuaciones estructurales, en lugar de recurrir a conocimientos previos. Los experimentos muestran una brecha persistente entre la predicción y la recuperación del mecanismo: en el entorno puramente observacional con 6 nodos, GPT-5.2-high alcanza un 92% de precisión en la tarea, pero solo un F_1 de 0.471 en todos los bordes. Las estrategias mixtas de observación e intervención mejoran la fidelidad estructural, mientras que la intervención pura sigue siendo difícil incluso para agentes poderosos. Identificamos la detención prematura como una debilidad importante y demostramos que la verificación de consistencia la mitiga. Por lo tanto, CausaLab separa el éxito predictivo de la comprensión causal y expone los límites de los agentes actuales basados en LLM como razonadores causales experimentales.

English

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge F_1. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.