ChatPaper.aiChatPaper

As Medalhas de Ouro em uma Sala Vazia: Diagnosticando o Raciocínio Metalinguístico em LLMs com Camlang

The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang

August 30, 2025
Autores: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) alcançam desempenho de medalha de ouro em diversos benchmarks, mas ainda não está claro se tal sucesso reflete um raciocínio genuíno ou apenas correspondência de padrões. Sob a perspectiva da ciência cognitiva, um teste informativo é verificar se os modelos podem dominar uma linguagem desconhecida por meio de aprendizado dedutivo metalinguístico explícito, um paradigma no qual aprendizes humanos conseguem internalizar sistemas gramaticais de forma confiável através do raciocínio metalinguístico. Abordamos essa questão com o Camlang, uma nova linguagem construída que exibe combinações de características naturalistas, porém não atestadas. O Camlang consiste em dois recursos explícitos: um livro de gramática e um dicionário bilíngue, que espelham o aprendizado de segunda língua por adultos por meio de regras gramaticais explícitas e consulta lexical, permitindo-nos distinguir erros em morfossintaxe, semântica lexical e raciocínio em nível de sentença. Experimentos com humanos mostram que esses recursos são suficientes para que os participantes adquiram o Camlang e resolvam tarefas relacionadas com sucesso. Para operacionalizar a avaliação, adaptamos o CommonsenseQA para o Camlang, criando o Camlang-CSQA-v0, a primeira tarefa de um conjunto mais amplo onde a resolução de questões requer a aplicação de regras gramaticais e mapeamentos lexicais. Resultados experimentais mostram que o GPT-5 alcança 98% de precisão EM (Exact Match) em inglês, mas apenas 47% em Camlang, muito abaixo do desempenho humano de 87%, enquanto outros LLMs de ponta para raciocínio têm desempenho ainda pior. A verificação humana revela ainda que a maioria dos sucessos dos modelos decorre de alinhamento lexical superficial, enquanto o GPT-5 mostra um incipiente nível de consciência metalinguística, mas não o domínio gramatical sistemático observado em humanos. O Camlang estabelece um paradigma de avaliação cognitivamente fundamentado que expõe lacunas fundamentais entre os modelos atuais e a competência metalinguística humana.
English
Large Language Models (LLMs) achieve gold-medal performance across many benchmarks, yet it remains unclear whether such success reflects genuine reasoning or pattern matching. From a cognitive science perspective, an informative test is whether models can master an unfamiliar language through explicit metalinguistic deductive learning, a paradigm where human learners can reliably internalise grammatical systems through metalinguistic reasoning. We address this question with Camlang, a novel constructed language that exhibits naturalistic yet unattested feature combinations. Camlang consists of two explicit resources, a grammar book and a bilingual dictionary, which mirror adult second-language learning via explicit grammar rules and lexical lookup, and enable us to disentangle errors in morpho-syntax, lexical semantics, and sentence-level reasoning. Human experiments show that these resources are sufficient for participants to acquire Camlang and successfully solve Camlang tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang, creating Camlang-CSQA-v0, the first task in a broader suite where solving questions requires applying grammar rules and lexical mappings. Experimental results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in Camlang, far below human performance at 87\%, while other state-of-the-art reasoning LLMs perform even worse. Human verification further reveals that most model successes stem from shallow lexical alignment while GPT-5 shows emerging metalinguistic awareness to a limited extent but not systematic grammatical mastery as humans. Camlang establishes a cognitively grounded evaluation paradigm that exposes fundamental gaps between current models and human metalinguistic competence.
PDF101September 3, 2025