Les médailles d'or dans une pièce vide : Diagnostiquer le raisonnement métalinguistique dans les LLM avec Camlang
The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
August 30, 2025
papers.authors: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) atteignent des performances de niveau médaille d'or sur de nombreux benchmarks, mais il reste incertain si ce succès reflète un véritable raisonnement ou une simple correspondance de motifs. D'un point de vue des sciences cognitives, un test informatif consiste à déterminer si ces modèles peuvent maîtriser une langue inconnue grâce à un apprentissage déductif métalinguistique explicite, un paradigme dans lequel les apprenants humains peuvent internaliser de manière fiable des systèmes grammaticaux par le raisonnement métalinguistique. Nous abordons cette question avec Camlang, une nouvelle langue construite qui présente des combinaisons de traits naturalistes mais non attestées. Camlang se compose de deux ressources explicites, un livre de grammaire et un dictionnaire bilingue, qui reflètent l'apprentissage d'une seconde langue par des adultes via des règles grammaticales explicites et la consultation lexicale, et nous permettent de distinguer les erreurs en morphosyntaxe, en sémantique lexicale et en raisonnement au niveau de la phrase. Des expériences humaines montrent que ces ressources sont suffisantes pour que les participants acquièrent Camlang et résolvent avec succès des tâches en Camlang. Pour opérationnaliser l'évaluation, nous adaptons CommonsenseQA en Camlang, créant Camlang-CSQA-v0, la première tâche d'une suite plus large où la résolution de questions nécessite l'application de règles grammaticales et de correspondances lexicales. Les résultats expérimentaux montrent que GPT-5 atteint une précision EM de 98 % en anglais mais seulement 47 % en Camlang, bien en dessous de la performance humaine à 87 %, tandis que d'autres LLMs de pointe en matière de raisonnement obtiennent des résultats encore moins bons. Une vérification humaine révèle en outre que la plupart des succès des modèles découlent d'un alignement lexical superficiel, tandis que GPT-5 montre une émergence limitée de conscience métalinguistique mais pas une maîtrise grammaticale systématique comme chez les humains. Camlang établit un paradigme d'évaluation ancré dans la cognition qui expose des lacunes fondamentales entre les modèles actuels et la compétence métalinguistique humaine.
English
Large Language Models (LLMs) achieve gold-medal performance across many
benchmarks, yet it remains unclear whether such success reflects genuine
reasoning or pattern matching. From a cognitive science perspective, an
informative test is whether models can master an unfamiliar language through
explicit metalinguistic deductive learning, a paradigm where human learners can
reliably internalise grammatical systems through metalinguistic reasoning. We
address this question with Camlang, a novel constructed language that exhibits
naturalistic yet unattested feature combinations. Camlang consists of two
explicit resources, a grammar book and a bilingual dictionary, which mirror
adult second-language learning via explicit grammar rules and lexical lookup,
and enable us to disentangle errors in morpho-syntax, lexical semantics, and
sentence-level reasoning. Human experiments show that these resources are
sufficient for participants to acquire Camlang and successfully solve Camlang
tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang,
creating Camlang-CSQA-v0, the first task in a broader suite where solving
questions requires applying grammar rules and lexical mappings. Experimental
results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in
Camlang, far below human performance at 87\%, while other state-of-the-art
reasoning LLMs perform even worse. Human verification further reveals that most
model successes stem from shallow lexical alignment while GPT-5 shows emerging
metalinguistic awareness to a limited extent but not systematic grammatical
mastery as humans. Camlang establishes a cognitively grounded evaluation
paradigm that exposes fundamental gaps between current models and human
metalinguistic competence.