As Medalhas de Ouro em uma Sala Vazia: Diagnosticando o Raciocínio Metalinguístico em LLMs com Camlang
The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
August 30, 2025
Autores: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) alcançam desempenho de medalha de ouro em diversos benchmarks, mas ainda não está claro se tal sucesso reflete um raciocínio genuíno ou apenas correspondência de padrões. Sob a perspectiva da ciência cognitiva, um teste informativo é verificar se os modelos podem dominar uma linguagem desconhecida por meio de aprendizado dedutivo metalinguístico explícito, um paradigma no qual aprendizes humanos conseguem internalizar sistemas gramaticais de forma confiável através do raciocínio metalinguístico. Abordamos essa questão com o Camlang, uma nova linguagem construída que exibe combinações de características naturalistas, porém não atestadas. O Camlang consiste em dois recursos explícitos: um livro de gramática e um dicionário bilíngue, que espelham o aprendizado de segunda língua por adultos por meio de regras gramaticais explícitas e consulta lexical, permitindo-nos distinguir erros em morfossintaxe, semântica lexical e raciocínio em nível de sentença. Experimentos com humanos mostram que esses recursos são suficientes para que os participantes adquiram o Camlang e resolvam tarefas relacionadas com sucesso. Para operacionalizar a avaliação, adaptamos o CommonsenseQA para o Camlang, criando o Camlang-CSQA-v0, a primeira tarefa de um conjunto mais amplo onde a resolução de questões requer a aplicação de regras gramaticais e mapeamentos lexicais. Resultados experimentais mostram que o GPT-5 alcança 98% de precisão EM (Exact Match) em inglês, mas apenas 47% em Camlang, muito abaixo do desempenho humano de 87%, enquanto outros LLMs de ponta para raciocínio têm desempenho ainda pior. A verificação humana revela ainda que a maioria dos sucessos dos modelos decorre de alinhamento lexical superficial, enquanto o GPT-5 mostra um incipiente nível de consciência metalinguística, mas não o domínio gramatical sistemático observado em humanos. O Camlang estabelece um paradigma de avaliação cognitivamente fundamentado que expõe lacunas fundamentais entre os modelos atuais e a competência metalinguística humana.
English
Large Language Models (LLMs) achieve gold-medal performance across many
benchmarks, yet it remains unclear whether such success reflects genuine
reasoning or pattern matching. From a cognitive science perspective, an
informative test is whether models can master an unfamiliar language through
explicit metalinguistic deductive learning, a paradigm where human learners can
reliably internalise grammatical systems through metalinguistic reasoning. We
address this question with Camlang, a novel constructed language that exhibits
naturalistic yet unattested feature combinations. Camlang consists of two
explicit resources, a grammar book and a bilingual dictionary, which mirror
adult second-language learning via explicit grammar rules and lexical lookup,
and enable us to disentangle errors in morpho-syntax, lexical semantics, and
sentence-level reasoning. Human experiments show that these resources are
sufficient for participants to acquire Camlang and successfully solve Camlang
tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang,
creating Camlang-CSQA-v0, the first task in a broader suite where solving
questions requires applying grammar rules and lexical mappings. Experimental
results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in
Camlang, far below human performance at 87\%, while other state-of-the-art
reasoning LLMs perform even worse. Human verification further reveals that most
model successes stem from shallow lexical alignment while GPT-5 shows emerging
metalinguistic awareness to a limited extent but not systematic grammatical
mastery as humans. Camlang establishes a cognitively grounded evaluation
paradigm that exposes fundamental gaps between current models and human
metalinguistic competence.