Drivel-ologia: Desafiando LLMs na Interpretação de Nonsense com Profundidade

Resumo

Apresentamos a Drivelologia, um fenômeno linguístico único caracterizado como "nonsense com profundidade", enunciados que são sintaticamente coerentes, mas pragmaticamente paradoxais, emocionalmente carregados ou retoricamente subversivos. Embora tais expressões possam se assemelhar a um nonsense superficial, elas codificam significados implícitos que exigem inferência contextual, raciocínio moral ou interpretação emocional. Constatamos que os atuais modelos de linguagem de grande escala (LLMs), apesar de se destacarem em muitas tarefas de processamento de linguagem natural (NLP), consistentemente falham em compreender a semântica em camadas do texto Drivelológico. Para investigar isso, construímos um pequeno, mas diversificado, conjunto de dados de referência com mais de 1.200 exemplos meticulosamente curados, incluindo instâncias selecionadas em inglês, mandarim, espanhol, francês, japonês e coreano. A anotação foi especialmente desafiadora: cada um dos exemplos exigiu uma revisão cuidadosa por especialistas para verificar se realmente refletia as características Drivelológicas. O processo envolveu múltiplas rodadas de discussão e adjudicação para resolver discordâncias, destacando a natureza sutil e subjetiva da Drivelologia. Avaliamos uma variedade de LLMs em tarefas de classificação, geração e raciocínio. Nossos resultados revelam limitações claras dos LLMs: os modelos frequentemente confundem Drivelologia com nonsense superficial, produzem justificativas incoerentes ou perdem completamente a função retórica implícita. Essas descobertas destacam uma lacuna representacional mais profunda na compreensão pragmática dos LLMs e desafiam a suposição de que fluência estatística implica compreensão cognitiva. Disponibilizamos nosso conjunto de dados e código para facilitar pesquisas futuras na modelagem da profundidade linguística além da coerência superficial.

English

We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.

Drivel-ologia: Desafiando LLMs na Interpretação de Nonsense com Profundidade

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Resumo

Support