Les médailles d'or dans une pièce vide : Diagnostiquer le raisonnement métalinguistique dans les LLM avec Camlang

Résumé

Les modèles de langage de grande taille (LLMs) atteignent des performances de niveau médaille d'or sur de nombreux benchmarks, mais il reste incertain si ce succès reflète un véritable raisonnement ou une simple correspondance de motifs. D'un point de vue des sciences cognitives, un test informatif consiste à déterminer si ces modèles peuvent maîtriser une langue inconnue grâce à un apprentissage déductif métalinguistique explicite, un paradigme dans lequel les apprenants humains peuvent internaliser de manière fiable des systèmes grammaticaux par le raisonnement métalinguistique. Nous abordons cette question avec Camlang, une nouvelle langue construite qui présente des combinaisons de traits naturalistes mais non attestées. Camlang se compose de deux ressources explicites, un livre de grammaire et un dictionnaire bilingue, qui reflètent l'apprentissage d'une seconde langue par des adultes via des règles grammaticales explicites et la consultation lexicale, et nous permettent de distinguer les erreurs en morphosyntaxe, en sémantique lexicale et en raisonnement au niveau de la phrase. Des expériences humaines montrent que ces ressources sont suffisantes pour que les participants acquièrent Camlang et résolvent avec succès des tâches en Camlang. Pour opérationnaliser l'évaluation, nous adaptons CommonsenseQA en Camlang, créant Camlang-CSQA-v0, la première tâche d'une suite plus large où la résolution de questions nécessite l'application de règles grammaticales et de correspondances lexicales. Les résultats expérimentaux montrent que GPT-5 atteint une précision EM de 98 % en anglais mais seulement 47 % en Camlang, bien en dessous de la performance humaine à 87 %, tandis que d'autres LLMs de pointe en matière de raisonnement obtiennent des résultats encore moins bons. Une vérification humaine révèle en outre que la plupart des succès des modèles découlent d'un alignement lexical superficiel, tandis que GPT-5 montre une émergence limitée de conscience métalinguistique mais pas une maîtrise grammaticale systématique comme chez les humains. Camlang établit un paradigme d'évaluation ancré dans la cognition qui expose des lacunes fondamentales entre les modèles actuels et la compétence métalinguistique humaine.

English

Large Language Models (LLMs) achieve gold-medal performance across many benchmarks, yet it remains unclear whether such success reflects genuine reasoning or pattern matching. From a cognitive science perspective, an informative test is whether models can master an unfamiliar language through explicit metalinguistic deductive learning, a paradigm where human learners can reliably internalise grammatical systems through metalinguistic reasoning. We address this question with Camlang, a novel constructed language that exhibits naturalistic yet unattested feature combinations. Camlang consists of two explicit resources, a grammar book and a bilingual dictionary, which mirror adult second-language learning via explicit grammar rules and lexical lookup, and enable us to disentangle errors in morpho-syntax, lexical semantics, and sentence-level reasoning. Human experiments show that these resources are sufficient for participants to acquire Camlang and successfully solve Camlang tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang, creating Camlang-CSQA-v0, the first task in a broader suite where solving questions requires applying grammar rules and lexical mappings. Experimental results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in Camlang, far below human performance at 87\%, while other state-of-the-art reasoning LLMs perform even worse. Human verification further reveals that most model successes stem from shallow lexical alignment while GPT-5 shows emerging metalinguistic awareness to a limited extent but not systematic grammatical mastery as humans. Camlang establishes a cognitively grounded evaluation paradigm that exposes fundamental gaps between current models and human metalinguistic competence.