CausaLab: Um Ambiente Escalável para Descoberta Causal Interativa Destinado a Cientistas de IA

Resumo

Apresentamos o CausaLab, um ambiente escalável para avaliar a descoberta causal interativa por agentes LLM. Diferentemente de avaliações anteriores, o CausaLab avalia tanto se um agente consegue resolver um problema utilizando evidências causais quanto se sua resposta está fundamentada em um mecanismo causal recuperado de forma fiel. Cada episódio coloca um agente em um laboratório sintético: ele recebe registros de medições anteriores, intervém em um cristal manipulador e prevê a frequência de ressonância de um cristal reator separado, governado pelo mesmo mecanismo. O processo oculto de geração de dados é um modelo causal estrutural (SCM) amostrado aleatoriamente, de modo que o sucesso exige recuperar tanto um grafo causal quanto equações estruturais, e não recorrer a conhecimento prévio. Experimentos mostram uma lacuna persistente entre predição e recuperação do mecanismo: no cenário puramente observacional com 6 nós, o GPT-5.2-high atinge 92% de acurácia na tarefa, mas apenas 0,471 de F₁ para todas as arestas. Estratégias mistas de observação e intervenção melhoram a fidelidade estrutural, enquanto a intervenção pura permanece difícil mesmo para agentes fortes. Identificamos a parada prematura como uma fraqueza importante e mostramos que a verificação de consistência a mitiga. Portanto, o CausaLab separa o sucesso preditivo da compreensão causal e expõe os limites dos atuais agentes LLM como raciocinadores causais experimentais.

English

We introduce CausaLab, a scalable environment for evaluating interactive causal discovery by LLM agents. Unlike prior evaluations, CausaLab evaluates both whether an agent can solve a problem using causal evidence and whether its answer is grounded in a faithful recovered causal mechanism. Each episode places an agent in a synthetic laboratory: it receives prior measurement records, intervenes on a manipulator crystal, and predicts the resonance frequency of a held-out reactor crystal governed by the same mechanism. The hidden data-generating process is a randomly sampled structural causal model (SCM), so success requires recovering both a causal graph and structural equations rather than recalling prior knowledge. Experiments show a persistent gap between prediction and mechanism recovery: in the purely observational 6-node setting, GPT-5.2-high reaches 92% task accuracy but only 0.471 all-edge F_1. Mixed observation-intervention strategies improve structural fidelity, while pure intervention remains difficult even for strong agents. We identify premature stopping as a major weakness and show that consistency verification mitigates it. CausaLab therefore separates predictive success from causal understanding and exposes current LLM agents' limits as experimental causal reasoners.