Découverte causale à l'ère des agents

Résumé

Les tentatives récentes de combiner les modèles de langage de grande taille (LLMs) avec la découverte causale demandent aux modèles d'inférer des directions par paires, de proposer des structures de graphe, ou d'injecter les sorties des modèles de langage comme a priori et contraintes. Ces approches promettent une analyse plus rapide, mais elles obscurcissent également la question de savoir si une preuve causale est étayée par les données et les hypothèses ou par des associations textuelles, des artefacts de prompt et des mécanismes hallucinés. Nous plaidons pour un rôle différent des agents dans la découverte causale. Les agents doivent inspecter les données, récupérer le contexte, expliquer les hypothèses des méthodes et clarifier les sorties des graphes, mais ils ne doivent pas fournir d'arêtes, d'orientations, d'a priori, de contraintes ou de conclusions causales. Nous proposons le principe selon lequel les agents assistent le flux de travail, tandis que les affirmations causales restent fondées sur les données, des hypothèses explicites, des algorithmes formels, des diagnostics et des décisions d'experts utilisateurs ou de domaine. Nous concrétisons ce principe dans causal-learn+, une plateforme en ligne qui coordonne l'analyse des données, le prétraitement, la recommandation de méthodes, l'intégration des connaissances d'experts, la découverte formelle et l'interprétation autour de l'écosystème algorithmique de causal-learn. Une étude de cas sur les données de personnalité des Cinq Grands illustre le pipeline assisté par agent de la découverte causale sans transformer la non-fiabilité du modèle de langage en preuve causale. La plateforme est disponible à l'adresse causallearn.com.

English

Recent attempts to combine large language models (LLMs) with causal discovery ask models to infer pairwise directions, propose graph structures, or inject language-model outputs as priors and constraints. These approaches promise faster analysis, but they also obscure whether a causal evidence is supported by data and assumptions or by textual associations, prompt artifacts and hallucinated mechanisms. We argue for a different role for agents in causal discovery. Agents should inspect data, retrieve context, explain method assumptions and clarify graph outputs, but they should not supply edges, orientations, priors, constraints or causal conclusions. We propose the principle that agents assist the workflow, while causal claims remain grounded in data, explicit assumptions, formal algorithms, diagnostics and user or domain-expert decisions. We instantiate this principle in causal-learn+, an online platform that coordinates data analysis, preprocessing, method recommendation, expert-knowledge incorporation, formal discovery and interpretation around the algorithmic ecosystem of causal-learn. A case study on Big Five personality data illustrates agent-assisted pipeline of causal discovery without turning language-model unreliability into causal evidence. The platform is available at causallearn.com.