Дрибблология: Испытание языковых моделей в интерпретации бессмыслицы с глубиной
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
September 4, 2025
Авторы: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin
cs.AI
Аннотация
Мы представляем Дривелологию — уникальный лингвистический феномен, характеризующийся как "бессмыслица с глубиной", высказывания, которые синтаксически связны, но прагматически парадоксальны, эмоционально насыщены или риторически подрывны. Хотя такие выражения могут напоминать поверхностную бессмыслицу, они кодируют скрытый смысл, требующий контекстуального вывода, морального рассуждения или эмоциональной интерпретации. Мы обнаруживаем, что современные большие языковые модели (LLM), несмотря на их успехи во многих задачах обработки естественного языка (NLP), последовательно не способны уловить многослойную семантику дривелологического текста. Для исследования этого мы создали небольшой, но разнообразный эталонный набор данных, содержащий более 1200 тщательно отобранных примеров, включая отдельные случаи на английском, китайском, испанском, французском, японском и корейском языках. Аннотирование оказалось особенно сложным: каждый пример требовал внимательного экспертного анализа, чтобы убедиться, что он действительно отражает характеристики Дривелологии. Процесс включал несколько раундов обсуждения и согласования для разрешения разногласий, подчеркивая тонкий и субъективный характер Дривелологии. Мы оцениваем ряд LLM на задачах классификации, генерации и рассуждения. Наши результаты выявляют явные ограничения LLM: модели часто путают Дривелологию с поверхностной бессмыслицей, создают несвязные обоснования или полностью упускают подразумеваемую риторическую функцию. Эти результаты подчеркивают более глубокий пробел в прагматическом понимании LLM и ставят под сомнение предположение, что статистическая беглость подразумевает когнитивное понимание. Мы публикуем наш набор данных и код, чтобы способствовать дальнейшим исследованиям в моделировании лингвистической глубины за пределами поверхностной связности.
English
We introduce Drivelology, a unique linguistic phenomenon characterised as
"nonsense with depth", utterances that are syntactically coherent yet
pragmatically paradoxical, emotionally loaded, or rhetorically subversive.
While such expressions may resemble surface-level nonsense, they encode
implicit meaning requiring contextual inference, moral reasoning, or emotional
interpretation. We find that current large language models (LLMs), despite
excelling at many natural language processing (NLP) tasks, consistently fail to
grasp the layered semantics of Drivelological text. To investigate this, we
construct a small but diverse benchmark dataset of over 1,200 meticulously
curated examples, with select instances in English, Mandarin, Spanish, French,
Japanese, and Korean. Annotation was especially challenging: each of the
examples required careful expert review to verify that it truly reflected
Drivelological characteristics. The process involved multiple rounds of
discussion and adjudication to address disagreements, highlighting the subtle
and subjective nature of the Drivelology. We evaluate a range of LLMs on
classification, generation, and reasoning tasks. Our results reveal clear
limitations of LLMs: models often confuse Drivelology with shallow nonsense,
produce incoherent justifications, or miss the implied rhetorical function
altogether. These findings highlight a deeper representational gap in LLMs'
pragmatic understanding and challenge the assumption that statistical fluency
implies cognitive comprehension. We release our dataset and code to facilitate
further research in modelling linguistic depth beyond surface-level coherence.