ChatPaper.aiChatPaper

大規模言語モデルは実世界のテキストから因果関係を推論できるか?

Can Large Language Models Infer Causal Relationships from Real-World Text?

May 25, 2025
著者: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI

要旨

テキストから因果関係を理解し推論することは、人間の認知の中核をなす側面であり、大規模言語モデル(LLM)を人工汎用知能に向けて進化させる上で不可欠です。既存の研究は主に、テキスト中に明示的に記述された単純な因果関係を含む合成生成テキストに焦点を当てています。これは現実世界のタスクの複雑さを反映していません。本論文では、LLMが現実世界のテキストから因果関係を推論できるかどうかを調査します。私たちは、現実世界の学術文献から抽出したベンチマークを開発しました。このベンチマークは、長さ、関係の複雑さ(明示性のレベル、イベントの数、因果関係の数)、およびドメインやサブドメインの多様性を含むテキストで構成されています。私たちの知る限り、このタスクにおける初めての現実世界のデータセットです。提案したベンチマークで評価した最先端のLLMの実験結果は、最良のモデルでも平均F1スコアが0.477に留まるなど、大きな課題を示しています。分析からは、暗黙的に述べられた情報の扱いの難しさ、関連する因果要因と周囲の文脈の詳細を区別する難しさ、長いテキストの節に散らばった因果的に重要な情報を結びつける難しさといった、共通の欠点が明らかになりました。これらの欠点を体系的に特徴づけることで、私たちのベンチマークは、LLMの因果推論を進めるための今後の研究に的を絞った洞察を提供します。
English
Understanding and inferring causal relationships from texts is a core aspect of human cognition and is essential for advancing large language models (LLMs) towards artificial general intelligence. Existing work primarily focuses on synthetically generated texts which involve simple causal relationships explicitly mentioned in the text. This fails to reflect the complexities of real-world tasks. In this paper, we investigate whether LLMs are capable of inferring causal relationships from real-world texts. We develop a benchmark drawn from real-world academic literature which includes diverse texts with respect to length, complexity of relationships (different levels of explicitness, number of events, and causal relationships), and domains and sub-domains. To the best of our knowledge, our benchmark is the first-ever real-world dataset for this task. Our experiments on state-of-the-art LLMs evaluated on our proposed benchmark demonstrate significant challenges, with the best-performing model achieving an average F1 score of only 0.477. Analysis reveals common pitfalls: difficulty with implicitly stated information, in distinguishing relevant causal factors from surrounding contextual details, and with connecting causally relevant information spread across lengthy textual passages. By systematically characterizing these deficiencies, our benchmark offers targeted insights for further research into advancing LLM causal reasoning.

Summary

AI-Generated Summary

PDF12May 29, 2025