Drivel-ologie: Herausforderung für LLMs bei der Interpretation von Unsinn mit Tiefe

papers.abstract

Wir stellen Drivelology vor, ein einzigartiges linguistisches Phänomen, das als „Unsinn mit Tiefe“ charakterisiert wird – Äußerungen, die syntaktisch kohärent, aber pragmatisch paradox, emotional aufgeladen oder rhetorisch subversiv sind. Obwohl solche Ausdrücke oberflächlich betrachtet wie Unsinn erscheinen mögen, kodieren sie implizite Bedeutungen, die kontextuelle Schlussfolgerungen, moralisches Denken oder emotionale Interpretation erfordern. Wir stellen fest, dass aktuelle große Sprachmodelle (LLMs), trotz ihrer herausragenden Leistungen in vielen Aufgaben der natürlichen Sprachverarbeitung (NLP), durchweg daran scheitern, die vielschichtige Semantik von Drivelology-Texten zu erfassen. Um dies zu untersuchen, haben wir einen kleinen, aber diversen Benchmark-Datensatz mit über 1.200 sorgfältig kuratierten Beispielen erstellt, darunter ausgewählte Instanzen in Englisch, Mandarin, Spanisch, Französisch, Japanisch und Koreanisch. Die Annotation war besonders herausfordernd: Jedes der Beispiele erforderte eine sorgfältige Expertenüberprüfung, um sicherzustellen, dass es tatsächlich die Merkmale von Drivelology widerspiegelt. Der Prozess umfasste mehrere Runden von Diskussionen und Entscheidungen, um Meinungsverschiedenheiten zu klären, was die subtile und subjektive Natur der Drivelology unterstreicht. Wir bewerten eine Reihe von LLMs in Bezug auf Klassifikations-, Generierungs- und Schlussfolgerungsaufgaben. Unsere Ergebnisse zeigen deutliche Grenzen der LLMs auf: Modelle verwechseln oft Drivelology mit oberflächlichem Unsinn, liefern inkohärente Begründungen oder übersehen die implizierte rhetorische Funktion vollständig. Diese Erkenntnisse verdeutlichen eine tiefere Repräsentationslücke im pragmatischen Verständnis von LLMs und stellen die Annahme infrage, dass statistische Flüssigkeit kognitive Verständlichkeit impliziert. Wir veröffentlichen unseren Datensatz und Code, um weitere Forschungen zur Modellierung linguistischer Tiefe jenseits oberflächlicher Kohärenz zu ermöglichen.

English

We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.

Drivel-ologie: Herausforderung für LLMs bei der Interpretation von Unsinn mit Tiefe

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

papers.abstract

Support