대규모 언어 모델은 실제 세계의 텍스트로부터 인과관계를 추론할 수 있는가?
Can Large Language Models Infer Causal Relationships from Real-World Text?
May 25, 2025
저자: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI
초록
텍스트에서 인과 관계를 이해하고 추론하는 것은 인간 인지의 핵심적인 측면이며, 대규모 언어 모델(LLMs)이 인공 일반 지능으로 나아가기 위해 필수적인 요소입니다. 기존 연구는 주로 텍스트에 명시적으로 언급된 단순한 인과 관계를 포함하는 합성적으로 생성된 텍스트에 초점을 맞추고 있습니다. 이는 실제 세계의 복잡성을 반영하지 못합니다. 본 논문에서는 LLMs가 실제 세계의 텍스트에서 인과 관계를 추론할 수 있는지 여부를 조사합니다. 우리는 실제 학술 문헌에서 추출한 벤치마크를 개발했는데, 이는 길이, 관계의 복잡성(명시성의 수준, 사건의 수, 인과 관계), 그리고 분야 및 하위 분야에 있어 다양한 텍스트를 포함합니다. 우리가 아는 한, 이 벤치마크는 이 작업을 위한 최초의 실제 세계 데이터셋입니다. 우리가 제안한 벤치마크에서 평가된 최신 LLMs에 대한 실험은 상당한 도전을 보여주었으며, 가장 성능이 좋은 모델도 평균 F1 점수가 단지 0.477에 그쳤습니다. 분석 결과, 일반적인 문제점이 드러났습니다: 암묵적으로 언급된 정보를 다루는 데 어려움, 관련된 인과 요인과 주변 맥락적 세부 사항을 구분하는 데 어려움, 그리고 긴 텍스트 구간에 걸쳐 흩어져 있는 인과적으로 관련된 정보를 연결하는 데 어려움 등이 있습니다. 이러한 결함을 체계적으로 특성화함으로써, 우리의 벤치마크는 LLM의 인과 추론을 발전시키기 위한 추가 연구를 위한 목표 지향적 통찰을 제공합니다.
English
Understanding and inferring causal relationships from texts is a core aspect
of human cognition and is essential for advancing large language models (LLMs)
towards artificial general intelligence. Existing work primarily focuses on
synthetically generated texts which involve simple causal relationships
explicitly mentioned in the text. This fails to reflect the complexities of
real-world tasks. In this paper, we investigate whether LLMs are capable of
inferring causal relationships from real-world texts. We develop a benchmark
drawn from real-world academic literature which includes diverse texts with
respect to length, complexity of relationships (different levels of
explicitness, number of events, and causal relationships), and domains and
sub-domains. To the best of our knowledge, our benchmark is the first-ever
real-world dataset for this task. Our experiments on state-of-the-art LLMs
evaluated on our proposed benchmark demonstrate significant challenges, with
the best-performing model achieving an average F1 score of only 0.477. Analysis
reveals common pitfalls: difficulty with implicitly stated information, in
distinguishing relevant causal factors from surrounding contextual details, and
with connecting causally relevant information spread across lengthy textual
passages. By systematically characterizing these deficiencies, our benchmark
offers targeted insights for further research into advancing LLM causal
reasoning.Summary
AI-Generated Summary