Drivel-ología: Desafiando a los LLM en la interpretación de sinsentidos con profundidad

Resumen

Introducimos la Drivelología, un fenómeno lingüístico único caracterizado como "disparates con profundidad", expresiones que son sintácticamente coherentes pero pragmáticamente paradójicas, emocionalmente cargadas o retóricamente subversivas. Aunque estas expresiones pueden parecer disparates superficiales, codifican un significado implícito que requiere inferencia contextual, razonamiento moral o interpretación emocional. Observamos que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), a pesar de sobresalir en muchas tareas de procesamiento del lenguaje natural (NLP), fallan consistentemente en captar la semántica estratificada del texto Drivelológico. Para investigar esto, construimos un pequeño pero diverso conjunto de datos de referencia con más de 1,200 ejemplos meticulosamente seleccionados, incluyendo instancias en inglés, mandarín, español, francés, japonés y coreano. La anotación fue especialmente desafiante: cada uno de los ejemplos requirió una revisión experta cuidadosa para verificar que reflejara verdaderamente las características Drivelológicas. El proceso involucró múltiples rondas de discusión y adjudicación para abordar desacuerdos, destacando la naturaleza sutil y subjetiva de la Drivelología. Evaluamos una variedad de LLMs en tareas de clasificación, generación y razonamiento. Nuestros resultados revelan limitaciones claras de los LLMs: los modelos a menudo confunden la Drivelología con disparates superficiales, producen justificaciones incoherentes o pasan por alto la función retórica implícita por completo. Estos hallazgos resaltan una brecha representacional más profunda en la comprensión pragmática de los LLMs y desafían la suposición de que la fluidez estadística implica comprensión cognitiva. Publicamos nuestro conjunto de datos y código para facilitar investigaciones futuras en la modelización de la profundidad lingüística más allá de la coherencia superficial.

English

We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.

Drivel-ología: Desafiando a los LLM en la interpretación de sinsentidos con profundidad

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Resumen

Support