Могут ли крупные языковые модели выводить причинно-следственные связи из реального текста?
Can Large Language Models Infer Causal Relationships from Real-World Text?
May 25, 2025
Авторы: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI
Аннотация
Понимание и вывод причинно-следственных связей из текстов является ключевым аспектом человеческого познания и имеет важное значение для продвижения крупных языковых моделей (LLM) в направлении искусственного общего интеллекта. Существующие работы в основном сосредоточены на синтетически сгенерированных текстах, которые содержат простые причинно-следственные связи, явно упомянутые в тексте. Это не отражает сложности реальных задач. В данной статье мы исследуем, способны ли LLM выводить причинно-следственные связи из реальных текстов. Мы разрабатываем эталонный набор данных, основанный на реальной академической литературе, который включает разнообразные тексты с точки зрения длины, сложности отношений (разные уровни явности, количество событий и причинно-следственных связей), а также областей и подобластей. Насколько нам известно, наш эталонный набор данных является первым в своем роде для этой задачи. Эксперименты с современными LLM, проведенные на нашем предложенном эталоне, демонстрируют значительные трудности: лучшая модель достигает среднего значения F1-меры всего 0,477. Анализ выявляет типичные проблемы: сложности с неявно выраженной информацией, с выделением релевантных причинных факторов из контекстных деталей, а также с установлением связи между причинно значимой информацией, распределенной по длинным текстовым фрагментам. Систематически характеризуя эти недостатки, наш эталонный набор данных предоставляет целенаправленные инсайты для дальнейших исследований в области улучшения причинно-следственного рассуждения в LLM.
English
Understanding and inferring causal relationships from texts is a core aspect
of human cognition and is essential for advancing large language models (LLMs)
towards artificial general intelligence. Existing work primarily focuses on
synthetically generated texts which involve simple causal relationships
explicitly mentioned in the text. This fails to reflect the complexities of
real-world tasks. In this paper, we investigate whether LLMs are capable of
inferring causal relationships from real-world texts. We develop a benchmark
drawn from real-world academic literature which includes diverse texts with
respect to length, complexity of relationships (different levels of
explicitness, number of events, and causal relationships), and domains and
sub-domains. To the best of our knowledge, our benchmark is the first-ever
real-world dataset for this task. Our experiments on state-of-the-art LLMs
evaluated on our proposed benchmark demonstrate significant challenges, with
the best-performing model achieving an average F1 score of only 0.477. Analysis
reveals common pitfalls: difficulty with implicitly stated information, in
distinguishing relevant causal factors from surrounding contextual details, and
with connecting causally relevant information spread across lengthy textual
passages. By systematically characterizing these deficiencies, our benchmark
offers targeted insights for further research into advancing LLM causal
reasoning.Summary
AI-Generated Summary