ChatPaper.aiChatPaper

Les grands modèles de langage peuvent-ils inférer des relations causales à partir de textes du monde réel ?

Can Large Language Models Infer Causal Relationships from Real-World Text?

May 25, 2025
Auteurs: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI

Résumé

Comprendre et inférer des relations causales à partir de textes est un aspect fondamental de la cognition humaine et est essentiel pour faire progresser les grands modèles de langage (LLMs) vers une intelligence artificielle générale. Les travaux existants se concentrent principalement sur des textes générés de manière synthétique qui impliquent des relations causales simples explicitement mentionnées dans le texte. Cela ne reflète pas les complexités des tâches du monde réel. Dans cet article, nous examinons si les LLMs sont capables d'inférer des relations causales à partir de textes du monde réel. Nous développons un benchmark tiré de la littérature académique réelle, qui inclut des textes variés en termes de longueur, de complexité des relations (différents niveaux d'explicitation, nombre d'événements et relations causales), ainsi que de domaines et sous-domaines. À notre connaissance, notre benchmark est le premier ensemble de données du monde réel pour cette tâche. Nos expériences sur les LLMs de pointe évalués sur notre benchmark proposé démontrent des défis significatifs, le modèle le plus performant atteignant un score F1 moyen de seulement 0,477. L'analyse révèle des écueils communs : difficulté avec les informations implicites, à distinguer les facteurs causaux pertinents des détails contextuels environnants, et à relier les informations causales pertinentes dispersées dans des passages textuels longs. En caractérisant systématiquement ces lacunes, notre benchmark offre des insights ciblés pour des recherches futures visant à améliorer le raisonnement causal des LLMs.
English
Understanding and inferring causal relationships from texts is a core aspect of human cognition and is essential for advancing large language models (LLMs) towards artificial general intelligence. Existing work primarily focuses on synthetically generated texts which involve simple causal relationships explicitly mentioned in the text. This fails to reflect the complexities of real-world tasks. In this paper, we investigate whether LLMs are capable of inferring causal relationships from real-world texts. We develop a benchmark drawn from real-world academic literature which includes diverse texts with respect to length, complexity of relationships (different levels of explicitness, number of events, and causal relationships), and domains and sub-domains. To the best of our knowledge, our benchmark is the first-ever real-world dataset for this task. Our experiments on state-of-the-art LLMs evaluated on our proposed benchmark demonstrate significant challenges, with the best-performing model achieving an average F1 score of only 0.477. Analysis reveals common pitfalls: difficulty with implicitly stated information, in distinguishing relevant causal factors from surrounding contextual details, and with connecting causally relevant information spread across lengthy textual passages. By systematically characterizing these deficiencies, our benchmark offers targeted insights for further research into advancing LLM causal reasoning.

Summary

AI-Generated Summary

PDF12May 29, 2025