Kunnen grote taalmodelle causale relaties afleiden uit real-world teksten?
Can Large Language Models Infer Causal Relationships from Real-World Text?
May 25, 2025
Auteurs: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI
Samenvatting
Het begrijpen en afleiden van causale relaties uit teksten is een kernaspect
van de menselijke cognitie en is essentieel voor het bevorderen van grote
taalmodellen (LLMs) richting kunstmatige algemene intelligentie. Bestaand werk
richt zich voornamelijk op synthetisch gegenereerde teksten die eenvoudige
causale relaties bevatten die expliciet in de tekst worden genoemd. Dit weerspiegelt
niet de complexiteit van taken in de echte wereld. In dit artikel onderzoeken we
of LLMs in staat zijn causale relaties af te leiden uit teksten uit de echte wereld.
We ontwikkelen een benchmark gebaseerd op academische literatuur uit de echte
wereld, die diverse teksten bevat wat betreft lengte, complexiteit van relaties
(verschillende niveaus van explicietheid, aantal gebeurtenissen en causale
relaties), en domeinen en subdomeinen. Voor zover wij weten, is onze benchmark
de eerste echte dataset voor deze taak. Onze experimenten met state-of-the-art
LLMs, geëvalueerd op onze voorgestelde benchmark, tonen aanzienlijke uitdagingen,
waarbij het best presterende model een gemiddelde F1-score van slechts 0.477
behaalt. Analyse onthult veelvoorkomende valkuilen: moeite met impliciet
uitgedrukte informatie, het onderscheiden van relevante causale factoren van
omringende contextuele details, en het verbinden van causaal relevante informatie
die verspreid is over lange tekstpassages. Door deze tekortkomingen systematisch
te karakteriseren, biedt onze benchmark gerichte inzichten voor verder onderzoek
naar het bevorderen van causaal redeneren in LLMs.
English
Understanding and inferring causal relationships from texts is a core aspect
of human cognition and is essential for advancing large language models (LLMs)
towards artificial general intelligence. Existing work primarily focuses on
synthetically generated texts which involve simple causal relationships
explicitly mentioned in the text. This fails to reflect the complexities of
real-world tasks. In this paper, we investigate whether LLMs are capable of
inferring causal relationships from real-world texts. We develop a benchmark
drawn from real-world academic literature which includes diverse texts with
respect to length, complexity of relationships (different levels of
explicitness, number of events, and causal relationships), and domains and
sub-domains. To the best of our knowledge, our benchmark is the first-ever
real-world dataset for this task. Our experiments on state-of-the-art LLMs
evaluated on our proposed benchmark demonstrate significant challenges, with
the best-performing model achieving an average F1 score of only 0.477. Analysis
reveals common pitfalls: difficulty with implicitly stated information, in
distinguishing relevant causal factors from surrounding contextual details, and
with connecting causally relevant information spread across lengthy textual
passages. By systematically characterizing these deficiencies, our benchmark
offers targeted insights for further research into advancing LLM causal
reasoning.