Drivel-ologie: Grote Taalmodellen Uitdagen met het Interpreteren van Onzin met Diepgang

Samenvatting

We introduceren Drivelologie, een uniek linguïstisch fenomeen dat wordt gekarakteriseerd als "onzin met diepgang": uitingen die syntactisch coherent zijn, maar pragmatisch paradoxaal, emotioneel geladen of retorisch subversief. Hoewel dergelijke uitdrukkingen oppervlakkig op onzin kunnen lijken, bevatten ze impliciete betekenis die contextuele inferentie, moreel redeneren of emotionele interpretatie vereist. We constateren dat huidige grote taalmodelen (LLMs), ondanks hun uitmuntende prestaties op veel natuurlijke taalverwerkingstaken (NLP), consistent falen in het begrijpen van de gelaagde semantiek van Drivelologische tekst. Om dit te onderzoeken, hebben we een kleine maar diverse benchmarkdataset samengesteld van meer dan 1.200 zorgvuldig gecureerde voorbeelden, met geselecteerde instanties in het Engels, Mandarijn, Spaans, Frans, Japans en Koreaans. Annotatie was bijzonder uitdagend: elk van de voorbeelden vereiste zorgvuldige expertbeoordeling om te verifiëren dat het daadwerkelijk Drivelologische kenmerken weerspiegelde. Het proces omvatte meerdere rondes van discussie en besluitvorming om meningsverschillen aan te pakken, wat de subtiele en subjectieve aard van de Drivelologie benadrukt. We evalueren een reeks LLMs op classificatie-, generatie- en redeneertaken. Onze resultaten onthullen duidelijke beperkingen van LLMs: modellen verwarren Drivelologie vaak met oppervlakkige onzin, produceren onsamenhangende rechtvaardigingen of missen de impliciete retorische functie volledig. Deze bevindingen benadrukken een dieper liggend representatiegat in het pragmatische begrip van LLMs en dagen de aanname uit dat statistische vloeiendheid cognitief begrip impliceert. We maken onze dataset en code beschikbaar om verder onderzoek te faciliteren naar het modelleren van linguïstische diepgang voorbij oppervlakkige coherentie.

English

We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.

Drivel-ologie: Grote Taalmodellen Uitdagen met het Interpreteren van Onzin met Diepgang

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Samenvatting

Support