Modelos de Linguagem de Grande Escala Podem Inferir Relações Causais a Partir de Textos do Mundo Real?
Can Large Language Models Infer Causal Relationships from Real-World Text?
May 25, 2025
Autores: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI
Resumo
Compreender e inferir relações causais a partir de textos é um aspecto fundamental da cognição humana e é essencial para avançar os modelos de linguagem de grande escala (LLMs, na sigla em inglês) em direção à inteligência artificial geral. Trabalhos existentes concentram-se principalmente em textos gerados sinteticamente que envolvem relações causais simples e explicitamente mencionadas no texto. Isso não reflete as complexidades das tarefas do mundo real. Neste artigo, investigamos se os LLMs são capazes de inferir relações causais a partir de textos do mundo real. Desenvolvemos um benchmark extraído de literatura acadêmica do mundo real, que inclui textos diversos em termos de extensão, complexidade das relações (diferentes níveis de explicitação, número de eventos e relações causais) e domínios e subdomínios. Até onde sabemos, nosso benchmark é o primeiro conjunto de dados do mundo real para essa tarefa. Nossos experimentos com LLMs de última geração avaliados em nosso benchmark proposto demonstram desafios significativos, com o modelo de melhor desempenho alcançando uma pontuação F1 média de apenas 0,477. A análise revela armadilhas comuns: dificuldade com informações implicitamente declaradas, em distinguir fatores causais relevantes de detalhes contextuais circundantes e em conectar informações causalmente relevantes espalhadas em passagens textuais extensas. Ao caracterizar sistematicamente essas deficiências, nosso benchmark oferece insights direcionados para pesquisas futuras visando avançar o raciocínio causal em LLMs.
English
Understanding and inferring causal relationships from texts is a core aspect
of human cognition and is essential for advancing large language models (LLMs)
towards artificial general intelligence. Existing work primarily focuses on
synthetically generated texts which involve simple causal relationships
explicitly mentioned in the text. This fails to reflect the complexities of
real-world tasks. In this paper, we investigate whether LLMs are capable of
inferring causal relationships from real-world texts. We develop a benchmark
drawn from real-world academic literature which includes diverse texts with
respect to length, complexity of relationships (different levels of
explicitness, number of events, and causal relationships), and domains and
sub-domains. To the best of our knowledge, our benchmark is the first-ever
real-world dataset for this task. Our experiments on state-of-the-art LLMs
evaluated on our proposed benchmark demonstrate significant challenges, with
the best-performing model achieving an average F1 score of only 0.477. Analysis
reveals common pitfalls: difficulty with implicitly stated information, in
distinguishing relevant causal factors from surrounding contextual details, and
with connecting causally relevant information spread across lengthy textual
passages. By systematically characterizing these deficiencies, our benchmark
offers targeted insights for further research into advancing LLM causal
reasoning.