Drivel-ologie : Mettre les LLM à l'épreuve en interprétant le non-sens avec profondeur

papers.abstract

Nous présentons la Drivelologie, un phénomène linguistique unique caractérisé comme un "non-sens avec profondeur", des énoncés syntaxiquement cohérents mais pragmatiquement paradoxaux, chargés émotionnellement ou rhétoriquement subversifs. Bien que ces expressions puissent ressembler à un non-sens superficiel, elles encodent une signification implicite nécessitant une inférence contextuelle, un raisonnement moral ou une interprétation émotionnelle. Nous constatons que les grands modèles de langage (LLMs) actuels, bien qu'excellant dans de nombreuses tâches de traitement du langage naturel (NLP), échouent systématiquement à saisir la sémantique stratifiée des textes Drivelologiques. Pour étudier cela, nous avons construit un petit ensemble de données de référence diversifié de plus de 1 200 exemples soigneusement sélectionnés, avec des instances en anglais, mandarin, espagnol, français, japonais et coréen. L'annotation a été particulièrement difficile : chaque exemple a nécessité un examen expert minutieux pour vérifier qu'il reflétait véritablement les caractéristiques Drivelologiques. Le processus a impliqué plusieurs tours de discussion et d'arbitrage pour résoudre les désaccords, mettant en évidence la nature subtile et subjective de la Drivelologie. Nous évaluons une gamme de LLMs sur des tâches de classification, de génération et de raisonnement. Nos résultats révèlent des limites claires des LLMs : les modèles confondent souvent la Drivelologie avec un non-sens superficiel, produisent des justifications incohérentes ou manquent complètement la fonction rhétorique implicite. Ces résultats mettent en lumière un déficit de représentation plus profond dans la compréhension pragmatique des LLMs et remettent en question l'hypothèse selon laquelle la fluidité statistique implique une compréhension cognitive. Nous publions notre ensemble de données et notre code pour faciliter des recherches ultérieures sur la modélisation de la profondeur linguistique au-delà de la cohérence superficielle.

English

We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.

Drivel-ologie : Mettre les LLM à l'épreuve en interprétant le non-sens avec profondeur

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

papers.abstract

Support