ChatPaper.aiChatPaper

Können große Sprachmodelle kausale Zusammenhänge aus realen Texten ableiten?

Can Large Language Models Infer Causal Relationships from Real-World Text?

May 25, 2025
Autoren: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI

Zusammenfassung

Das Verstehen und Ableiten kausaler Zusammenhänge aus Texten ist ein zentraler Aspekt der menschlichen Kognition und essenziell für die Weiterentwicklung großer Sprachmodelle (LLMs) hin zu künstlicher allgemeiner Intelligenz. Bisherige Arbeiten konzentrieren sich hauptsächlich auf synthetisch generierte Texte, die einfache, explizit erwähnte kausale Beziehungen enthalten. Dies spiegelt jedoch nicht die Komplexität realer Aufgaben wider. In dieser Arbeit untersuchen wir, ob LLMs in der Lage sind, kausale Zusammenhänge aus realen Texten abzuleiten. Wir entwickeln einen Benchmark, der auf realer akademischer Literatur basiert und Texte unterschiedlicher Länge, Komplexität der Beziehungen (unterschiedliche Explizitheitsgrade, Anzahl von Ereignissen und kausalen Zusammenhängen) sowie verschiedener Domänen und Subdomänen umfasst. Unseres Wissens ist dies der erste reale Datensatz für diese Aufgabe. Experimente mit state-of-the-art LLMs, die auf unserem vorgeschlagenen Benchmark evaluiert wurden, zeigen erhebliche Herausforderungen, wobei das beste Modell einen durchschnittlichen F1-Score von nur 0,477 erreicht. Analysen offenbaren häufige Schwierigkeiten: Probleme mit implizit formulierten Informationen, bei der Unterscheidung relevanter kausaler Faktoren von kontextuellen Details sowie bei der Verbindung kausal relevanter Informationen, die über längere Textpassagen verteilt sind. Durch die systematische Charakterisierung dieser Defizite bietet unser Benchmark gezielte Einblicke für weitere Forschungen zur Verbesserung des kausalen Denkens von LLMs.
English
Understanding and inferring causal relationships from texts is a core aspect of human cognition and is essential for advancing large language models (LLMs) towards artificial general intelligence. Existing work primarily focuses on synthetically generated texts which involve simple causal relationships explicitly mentioned in the text. This fails to reflect the complexities of real-world tasks. In this paper, we investigate whether LLMs are capable of inferring causal relationships from real-world texts. We develop a benchmark drawn from real-world academic literature which includes diverse texts with respect to length, complexity of relationships (different levels of explicitness, number of events, and causal relationships), and domains and sub-domains. To the best of our knowledge, our benchmark is the first-ever real-world dataset for this task. Our experiments on state-of-the-art LLMs evaluated on our proposed benchmark demonstrate significant challenges, with the best-performing model achieving an average F1 score of only 0.477. Analysis reveals common pitfalls: difficulty with implicitly stated information, in distinguishing relevant causal factors from surrounding contextual details, and with connecting causally relevant information spread across lengthy textual passages. By systematically characterizing these deficiencies, our benchmark offers targeted insights for further research into advancing LLM causal reasoning.

Summary

AI-Generated Summary

PDF12May 29, 2025