ChatPaper.aiChatPaper

¿Pueden los Modelos de Lenguaje a Gran Escala Inferir Relaciones Causales a partir de Textos del Mundo Real?

Can Large Language Models Infer Causal Relationships from Real-World Text?

May 25, 2025
Autores: Ryan Saklad, Aman Chadha, Oleg Pavlov, Raha Moraffah
cs.AI

Resumen

Comprender e inferir relaciones causales a partir de textos es un aspecto fundamental de la cognición humana y es esencial para avanzar hacia la inteligencia artificial general en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Los trabajos existentes se centran principalmente en textos generados sintéticamente que involucran relaciones causales simples y explícitamente mencionadas en el texto. Esto no refleja las complejidades de las tareas del mundo real. En este artículo, investigamos si los LLMs son capaces de inferir relaciones causales a partir de textos del mundo real. Desarrollamos un punto de referencia extraído de literatura académica del mundo real que incluye textos diversos en términos de longitud, complejidad de las relaciones (diferentes niveles de explicitidad, número de eventos y relaciones causales) y dominios y subdominios. Hasta donde sabemos, nuestro punto de referencia es el primer conjunto de datos del mundo real para esta tarea. Nuestros experimentos con LLMs de vanguardia evaluados en nuestro punto de referencia propuesto demuestran desafíos significativos, con el modelo de mejor rendimiento alcanzando un puntaje F1 promedio de solo 0.477. El análisis revela errores comunes: dificultad con la información implícitamente expresada, en distinguir factores causales relevantes de los detalles contextuales circundantes, y en conectar información causalmente relevante dispersa en pasajes textuales extensos. Al caracterizar sistemáticamente estas deficiencias, nuestro punto de referencia ofrece perspectivas específicas para futuras investigaciones en el avance del razonamiento causal en LLMs.
English
Understanding and inferring causal relationships from texts is a core aspect of human cognition and is essential for advancing large language models (LLMs) towards artificial general intelligence. Existing work primarily focuses on synthetically generated texts which involve simple causal relationships explicitly mentioned in the text. This fails to reflect the complexities of real-world tasks. In this paper, we investigate whether LLMs are capable of inferring causal relationships from real-world texts. We develop a benchmark drawn from real-world academic literature which includes diverse texts with respect to length, complexity of relationships (different levels of explicitness, number of events, and causal relationships), and domains and sub-domains. To the best of our knowledge, our benchmark is the first-ever real-world dataset for this task. Our experiments on state-of-the-art LLMs evaluated on our proposed benchmark demonstrate significant challenges, with the best-performing model achieving an average F1 score of only 0.477. Analysis reveals common pitfalls: difficulty with implicitly stated information, in distinguishing relevant causal factors from surrounding contextual details, and with connecting causally relevant information spread across lengthy textual passages. By systematically characterizing these deficiencies, our benchmark offers targeted insights for further research into advancing LLM causal reasoning.

Summary

AI-Generated Summary

PDF12May 29, 2025