ChatPaper.aiChatPaper

Золотые медали в пустой комнате: диагностика металингвистического мышления в языковых моделях с помощью Camlang

The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang

August 30, 2025
Авторы: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют выдающиеся результаты на множестве бенчмарков, однако остается неясным, отражает ли такой успех подлинное мышление или простое сопоставление паттернов. С точки зрения когнитивной науки, информативным тестом является способность моделей освоить незнакомый язык через явное металингвистическое дедуктивное обучение — парадигму, в рамках которой человеческие обучающиеся могут надежно усваивать грамматические системы с помощью металингвистического рассуждения. Мы исследуем этот вопрос с помощью Camlang, нового искусственного языка, который сочетает в себе естественные, но ранее не встречавшиеся особенности. Camlang включает два явных ресурса: грамматический справочник и двуязычный словарь, которые имитируют изучение второго языка взрослыми через явные грамматические правила и поиск лексики, что позволяет нам разделить ошибки в морфосинтаксисе, лексической семантике и рассуждениях на уровне предложения. Эксперименты с участием людей показывают, что этих ресурсов достаточно для освоения Camlang и успешного выполнения задач на этом языке. Для операционализации оценки мы адаптировали CommonsenseQA в Camlang, создав Camlang-CSQA-v0 — первую задачу в более широком наборе, где решение вопросов требует применения грамматических правил и лексических соответствий. Результаты экспериментов показывают, что GPT-5 достигает 98% точности (EM) на английском языке, но только 47% на Camlang, что значительно ниже человеческого результата в 87%, в то время как другие передовые LLM для рассуждений показывают еще худшие результаты. Дополнительная проверка людьми выявляет, что большинство успехов моделей обусловлено поверхностным лексическим выравниванием, тогда как GPT-5 демонстрирует ограниченные признаки металингвистической осведомленности, но не систематического грамматического мастерства, как у людей. Camlang устанавливает когнитивно обоснованную парадигму оценки, которая выявляет фундаментальные разрывы между текущими моделями и металингвистической компетенцией человека.
English
Large Language Models (LLMs) achieve gold-medal performance across many benchmarks, yet it remains unclear whether such success reflects genuine reasoning or pattern matching. From a cognitive science perspective, an informative test is whether models can master an unfamiliar language through explicit metalinguistic deductive learning, a paradigm where human learners can reliably internalise grammatical systems through metalinguistic reasoning. We address this question with Camlang, a novel constructed language that exhibits naturalistic yet unattested feature combinations. Camlang consists of two explicit resources, a grammar book and a bilingual dictionary, which mirror adult second-language learning via explicit grammar rules and lexical lookup, and enable us to disentangle errors in morpho-syntax, lexical semantics, and sentence-level reasoning. Human experiments show that these resources are sufficient for participants to acquire Camlang and successfully solve Camlang tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang, creating Camlang-CSQA-v0, the first task in a broader suite where solving questions requires applying grammar rules and lexical mappings. Experimental results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in Camlang, far below human performance at 87\%, while other state-of-the-art reasoning LLMs perform even worse. Human verification further reveals that most model successes stem from shallow lexical alignment while GPT-5 shows emerging metalinguistic awareness to a limited extent but not systematic grammatical mastery as humans. Camlang establishes a cognitively grounded evaluation paradigm that exposes fundamental gaps between current models and human metalinguistic competence.
PDF101September 3, 2025