Die Goldmedaillen in einem leeren Raum: Diagnose metasprachlichen Denkens in LLMs mit Camlang
The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
August 30, 2025
papers.authors: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) erreichen Spitzenleistungen in vielen Benchmarks, doch bleibt unklar, ob dieser Erfolg auf echtes Denken oder auf Mustererkennung zurückzuführen ist. Aus kognitionswissenschaftlicher Perspektive ist ein informativer Test, ob Modelle eine unbekannte Sprache durch explizites metasprachliches deduktives Lernen meistern können, ein Paradigma, bei dem menschliche Lernende zuverlässig grammatikalische Systeme durch metasprachliches Denken verinnerlichen können. Wir gehen dieser Frage mit Camlang nach, einer neu konstruierten Sprache, die natürliche, aber bisher nicht belegte Merkmalskombinationen aufweist. Camlang besteht aus zwei expliziten Ressourcen, einem Grammatikbuch und einem zweisprachigen Wörterbuch, die das Erlernen einer Zweitsprache durch Erwachsene über explizite Grammatikregeln und lexikalische Nachschlagearbeit widerspiegeln und es uns ermöglichen, Fehler in Morphosyntax, lexikalischer Semantik und satzbezogenem Denken zu unterscheiden. Menschliche Experimente zeigen, dass diese Ressourcen ausreichen, damit Teilnehmer Camlang erlernen und Camlang-Aufgaben erfolgreich lösen können. Um die Evaluation zu operationalisieren, adaptieren wir CommonsenseQA in Camlang und schaffen damit Camlang-CSQA-v0, die erste Aufgabe in einer umfassenderen Suite, bei der das Lösen von Fragen die Anwendung von Grammatikregeln und lexikalischen Zuordnungen erfordert. Experimentelle Ergebnisse zeigen, dass GPT-5 eine Genauigkeit von 98 % EM in Englisch, aber nur 47 % in Camlang erreicht, weit unter der menschlichen Leistung von 87 %, während andere state-of-the-art LLMs noch schlechter abschneiden. Menschliche Überprüfung zeigt weiterhin, dass die meisten Erfolge der Modelle auf oberflächlicher lexikalischer Anpassung beruhen, während GPT-5 in begrenztem Umfang eine aufkeimende metasprachliche Bewusstheit zeigt, jedoch keine systematische grammatikalische Beherrschung wie beim Menschen. Camlang etabliert ein kognitiv fundiertes Evaluationsparadigma, das grundlegende Lücken zwischen aktuellen Modellen und menschlicher metasprachlicher Kompetenz aufdeckt.
English
Large Language Models (LLMs) achieve gold-medal performance across many
benchmarks, yet it remains unclear whether such success reflects genuine
reasoning or pattern matching. From a cognitive science perspective, an
informative test is whether models can master an unfamiliar language through
explicit metalinguistic deductive learning, a paradigm where human learners can
reliably internalise grammatical systems through metalinguistic reasoning. We
address this question with Camlang, a novel constructed language that exhibits
naturalistic yet unattested feature combinations. Camlang consists of two
explicit resources, a grammar book and a bilingual dictionary, which mirror
adult second-language learning via explicit grammar rules and lexical lookup,
and enable us to disentangle errors in morpho-syntax, lexical semantics, and
sentence-level reasoning. Human experiments show that these resources are
sufficient for participants to acquire Camlang and successfully solve Camlang
tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang,
creating Camlang-CSQA-v0, the first task in a broader suite where solving
questions requires applying grammar rules and lexical mappings. Experimental
results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in
Camlang, far below human performance at 87\%, while other state-of-the-art
reasoning LLMs perform even worse. Human verification further reveals that most
model successes stem from shallow lexical alignment while GPT-5 shows emerging
metalinguistic awareness to a limited extent but not systematic grammatical
mastery as humans. Camlang establishes a cognitively grounded evaluation
paradigm that exposes fundamental gaps between current models and human
metalinguistic competence.