I Modelli Linguistici di Grandi Dimensioni Possono Dedurre Relazioni Causali da Testi del Mondo Reale?
Can Large Language Models Infer Causal Relationships from Real-World Text?
May 25, 2025
Autori: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI
Abstract
Comprendere e inferire relazioni causali dai testi è un aspetto fondamentale della cognizione umana ed è essenziale per far progredire i grandi modelli linguistici (LLM) verso l'intelligenza artificiale generale. Il lavoro esistente si concentra principalmente su testi generati sinteticamente che coinvolgono semplici relazioni causali esplicitamente menzionate nel testo. Ciò non riflette la complessità delle attività del mondo reale. In questo articolo, indaghiamo se gli LLM siano in grado di inferire relazioni causali da testi del mondo reale. Sviluppiamo un benchmark tratto dalla letteratura accademica del mondo reale che include testi diversificati per lunghezza, complessità delle relazioni (diversi livelli di esplicitezza, numero di eventi e relazioni causali) e domini e sottodomini. Per quanto ne sappiamo, il nostro benchmark è il primo dataset del mondo reale per questo compito. I nostri esperimenti sugli LLM all'avanguardia, valutati sul benchmark proposto, dimostrano sfide significative, con il modello con le migliori prestazioni che raggiunge un punteggio F1 medio di soli 0,477. L'analisi rivela errori comuni: difficoltà con le informazioni implicitamente dichiarate, nel distinguere i fattori causali rilevanti dai dettagli contestuali circostanti e nel connettere informazioni causalmente rilevanti distribuite su passaggi testuali lunghi. Caratterizzando sistematicamente queste carenze, il nostro benchmark offre approfondimenti mirati per ulteriori ricerche sul miglioramento del ragionamento causale degli LLM.
English
Understanding and inferring causal relationships from texts is a core aspect
of human cognition and is essential for advancing large language models (LLMs)
towards artificial general intelligence. Existing work primarily focuses on
synthetically generated texts which involve simple causal relationships
explicitly mentioned in the text. This fails to reflect the complexities of
real-world tasks. In this paper, we investigate whether LLMs are capable of
inferring causal relationships from real-world texts. We develop a benchmark
drawn from real-world academic literature which includes diverse texts with
respect to length, complexity of relationships (different levels of
explicitness, number of events, and causal relationships), and domains and
sub-domains. To the best of our knowledge, our benchmark is the first-ever
real-world dataset for this task. Our experiments on state-of-the-art LLMs
evaluated on our proposed benchmark demonstrate significant challenges, with
the best-performing model achieving an average F1 score of only 0.477. Analysis
reveals common pitfalls: difficulty with implicitly stated information, in
distinguishing relevant causal factors from surrounding contextual details, and
with connecting causally relevant information spread across lengthy textual
passages. By systematically characterizing these deficiencies, our benchmark
offers targeted insights for further research into advancing LLM causal
reasoning.