드리블로지: 의미 없는 내용을 깊이 있게 해석함으로써 대형 언어 모델에 도전하기
Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
September 4, 2025
저자: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin
cs.AI
초록
우리는 "깊이 있는 넌센스"로 특징지어지는 독특한 언어 현상인 '드리블로지(Drivelology)'를 소개한다. 이는 구문적으로는 일관성이 있지만 화용적으로는 역설적이거나, 감정적으로 과장되었으며, 수사적으로는 전복적인 발화를 의미한다. 이러한 표현들은 표면적으로는 넌센스처럼 보일 수 있지만, 맥락적 추론, 도덕적 사고, 또는 감정적 해석을 요구하는 암묵적 의미를 담고 있다. 우리는 현재의 대형 언어 모델(LLM)들이 많은 자연어 처리(NLP) 작업에서 뛰어난 성과를 보임에도 불구하고, 드리블로지 텍스트의 다층적 의미를 이해하는 데 지속적으로 실패한다는 사실을 발견했다. 이를 조사하기 위해, 우리는 영어, 중국어, 스페인어, 프랑스어, 일본어, 한국어로 구성된 1,200개 이상의 세심하게 선별된 예시들로 이루어진 소규모이지만 다양한 벤치마크 데이터셋을 구축했다. 주석 작업은 특히 어려웠는데, 각 예시가 진정으로 드리블로지의 특성을 반영하는지 확인하기 위해 전문가의 신중한 검토가 필요했다. 이 과정은 의견 불일치를 해결하기 위해 여러 차례의 논의와 조정을 포함했으며, 드리블로지의 미묘하고 주관적인 특성을 강조했다. 우리는 다양한 LLM을 분류, 생성, 추론 작업에 대해 평가했다. 그 결과, 모델들이 종종 드리블로지를 단순한 넌센스와 혼동하거나, 일관성 없는 설명을 생성하거나, 암시된 수사적 기능을 완전히 놓치는 등 명확한 한계를 보였다. 이러한 발견들은 LLM의 화용적 이해에 있어 더 깊은 표현적 격차를 드러내며, 통계적 유창성이 인지적 이해를 의미한다는 가정에 도전한다. 우리는 표면적 일관성을 넘어 언어적 깊이를 모델링하는 추가 연구를 촉진하기 위해 데이터셋과 코드를 공개한다.
English
We introduce Drivelology, a unique linguistic phenomenon characterised as
"nonsense with depth", utterances that are syntactically coherent yet
pragmatically paradoxical, emotionally loaded, or rhetorically subversive.
While such expressions may resemble surface-level nonsense, they encode
implicit meaning requiring contextual inference, moral reasoning, or emotional
interpretation. We find that current large language models (LLMs), despite
excelling at many natural language processing (NLP) tasks, consistently fail to
grasp the layered semantics of Drivelological text. To investigate this, we
construct a small but diverse benchmark dataset of over 1,200 meticulously
curated examples, with select instances in English, Mandarin, Spanish, French,
Japanese, and Korean. Annotation was especially challenging: each of the
examples required careful expert review to verify that it truly reflected
Drivelological characteristics. The process involved multiple rounds of
discussion and adjudication to address disagreements, highlighting the subtle
and subjective nature of the Drivelology. We evaluate a range of LLMs on
classification, generation, and reasoning tasks. Our results reveal clear
limitations of LLMs: models often confuse Drivelology with shallow nonsense,
produce incoherent justifications, or miss the implied rhetorical function
altogether. These findings highlight a deeper representational gap in LLMs'
pragmatic understanding and challenge the assumption that statistical fluency
implies cognitive comprehension. We release our dataset and code to facilitate
further research in modelling linguistic depth beyond surface-level coherence.