Le medaglie d'oro in una stanza vuota: diagnosticare il ragionamento metalinguistico nei modelli linguistici di grandi dimensioni con Camlang
The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
August 30, 2025
Autori: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI
Abstract
I Large Language Model (LLM) raggiungono prestazioni da medaglia d'oro in molti benchmark, ma rimane poco chiaro se tale successo rifletta un ragionamento genuino o un semplice pattern matching. Da una prospettiva di scienza cognitiva, un test informativo è verificare se i modelli possano padroneggiare una lingua sconosciuta attraverso un apprendimento deduttivo metalinguistico esplicito, un paradigma in cui gli esseri umani possono internalizzare in modo affidabile sistemi grammaticali mediante ragionamento metalinguistico. Affrontiamo questa questione con Camlang, una nuova lingua costruita che presenta combinazioni di caratteristiche naturalistiche ma non attestate. Camlang consiste in due risorse esplicite, un libro di grammatica e un dizionario bilingue, che riflettono l'apprendimento di una seconda lingua da parte di adulti attraverso regole grammaticali esplicite e consultazione lessicale, e ci permettono di distinguere errori nella morfosintassi, nella semantica lessicale e nel ragionamento a livello di frase. Esperimenti con esseri umani dimostrano che queste risorse sono sufficienti affinché i partecipanti acquisiscano Camlang e risolvano con successo i compiti in Camlang. Per operazionalizzare la valutazione, adattiamo CommonsenseQA in Camlang, creando Camlang-CSQA-v0, il primo compito di una suite più ampia in cui risolvere le domande richiede l'applicazione di regole grammaticali e mappature lessicali. I risultati sperimentali mostrano che GPT-5 raggiunge una precisione EM del 98% in inglese ma solo del 47% in Camlang, ben al di sotto della prestazione umana all'87%, mentre altri LLM all'avanguardia nel ragionamento performano ancora peggio. La verifica umana rivela inoltre che la maggior parte dei successi del modello deriva da un allineamento lessicale superficiale, mentre GPT-5 mostra una consapevolezza metalinguistica emergente in misura limitata ma non un padroneggiamento grammaticale sistematico come gli esseri umani. Camlang stabilisce un paradigma di valutazione cognitivamente fondato che evidenzia lacune fondamentali tra i modelli attuali e la competenza metalinguistica umana.
English
Large Language Models (LLMs) achieve gold-medal performance across many
benchmarks, yet it remains unclear whether such success reflects genuine
reasoning or pattern matching. From a cognitive science perspective, an
informative test is whether models can master an unfamiliar language through
explicit metalinguistic deductive learning, a paradigm where human learners can
reliably internalise grammatical systems through metalinguistic reasoning. We
address this question with Camlang, a novel constructed language that exhibits
naturalistic yet unattested feature combinations. Camlang consists of two
explicit resources, a grammar book and a bilingual dictionary, which mirror
adult second-language learning via explicit grammar rules and lexical lookup,
and enable us to disentangle errors in morpho-syntax, lexical semantics, and
sentence-level reasoning. Human experiments show that these resources are
sufficient for participants to acquire Camlang and successfully solve Camlang
tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang,
creating Camlang-CSQA-v0, the first task in a broader suite where solving
questions requires applying grammar rules and lexical mappings. Experimental
results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in
Camlang, far below human performance at 87\%, while other state-of-the-art
reasoning LLMs perform even worse. Human verification further reveals that most
model successes stem from shallow lexical alignment while GPT-5 shows emerging
metalinguistic awareness to a limited extent but not systematic grammatical
mastery as humans. Camlang establishes a cognitively grounded evaluation
paradigm that exposes fundamental gaps between current models and human
metalinguistic competence.