Drivel-ologia: Mettere alla prova i LLM nell'interpretazione del nonsenso con profondità

Abstract

Introduciamo la Drivelologia, un fenomeno linguistico unico caratterizzato come "nonsense con profondità", ovvero espressioni che sono sintatticamente coerenti ma pragmaticamente paradossali, emotivamente cariche o retoricamente sovversive. Sebbene tali espressioni possano assomigliare a un nonsense superficiale, codificano significati impliciti che richiedono inferenza contestuale, ragionamento morale o interpretazione emotiva. Scopriamo che gli attuali modelli linguistici di grandi dimensioni (LLM), nonostante eccellano in molti compiti di elaborazione del linguaggio naturale (NLP), falliscono costantemente nel cogliere la semantica stratificata del testo Drivelologico. Per indagare questo aspetto, abbiamo costruito un piccolo ma diversificato dataset di riferimento composto da oltre 1.200 esempi accuratamente curati, con istanze selezionate in inglese, mandarino, spagnolo, francese, giapponese e coreano. L'annotazione è stata particolarmente impegnativa: ciascuno degli esempi ha richiesto un'attenta revisione da parte di esperti per verificare che riflettesse veramente le caratteristiche della Drivelologia. Il processo ha coinvolto più round di discussione e arbitraggio per risolvere i disaccordi, evidenziando la natura sottile e soggettiva della Drivelologia. Valutiamo una gamma di LLM su compiti di classificazione, generazione e ragionamento. I nostri risultati rivelano chiare limitazioni degli LLM: i modelli spesso confondono la Drivelologia con un nonsense superficiale, producono giustificazioni incoerenti o perdono del tutto la funzione retorica implicita. Questi risultati evidenziano un divario rappresentativo più profondo nella comprensione pragmatica degli LLM e mettono in discussione l'assunzione che la fluidità statistica implichi la comprensione cognitiva. Rilasciamo il nostro dataset e il codice per facilitare ulteriori ricerche sulla modellazione della profondità linguistica oltre la coerenza superficiale.

English

We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.

Drivel-ologia: Mettere alla prova i LLM nell'interpretazione del nonsenso con profondità

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Abstract

Support