빈 방 속의 금메달: Camlang을 활용한 대형 언어 모델의 메타언어적 사고 진단
The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang
August 30, 2025
저자: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI
초록
대형 언어 모델(LLMs)은 다양한 벤치마크에서 최고 수준의 성능을 달성하지만, 이러한 성공이 진정한 추론 능력을 반영하는지 아니면 단순한 패턴 매칭에 불과한지는 여전히 불분명합니다. 인지과학적 관점에서, 모델이 명시적인 메타언어적 연역 학습을 통해 익숙하지 않은 언어를 숙달할 수 있는지 여부는 유익한 테스트입니다. 이는 인간 학습자가 메타언어적 추론을 통해 문법 체계를 안정적으로 내면화할 수 있는 패러다임입니다. 우리는 이 질문에 답하기 위해 자연스러우면서도 기존에 확인되지 않은 특징 조합을 보여주는 새로운 구성 언어인 Camlang을 개발했습니다. Camlang은 문법서와 이중언어 사전이라는 두 가지 명시적 자원으로 구성되어 있으며, 이는 명시적인 문법 규칙과 어휘 조회를 통해 성인의 제2언어 학습을 반영하고, 형태-통사론, 어휘 의미론, 문장 수준의 추론에서 발생하는 오류를 분리할 수 있게 합니다. 인간 실험 결과, 이러한 자원은 참가자들이 Camlang을 습득하고 Camlang 과제를 성공적으로 해결하기에 충분한 것으로 나타났습니다. 평가를 구체화하기 위해, 우리는 CommonsenseQA를 Camlang으로 적응시켜 Camlang-CSQA-v0를 만들었습니다. 이는 문법 규칙과 어휘 매핑을 적용하여 질문을 해결해야 하는 더 넓은 과제군 중 첫 번째 과제입니다. 실험 결과, GPT-5는 영어에서 98%의 EM 정확도를 달성했지만 Camlang에서는 47%에 그쳤으며, 이는 인간의 87% 성능에 훨씬 못 미치는 수준입니다. 다른 최첨단 추론 LLM들은 더 나쁜 성적을 보였습니다. 인간 검증 결과, 대부분의 모델 성공은 피상적인 어휘 정렬에서 비롯된 반면, GPT-5는 제한된 범위에서 메타언어적 인식의 징후를 보였지만 인간과 같은 체계적인 문법 숙달은 보이지 않았습니다. Camlang은 현재의 모델과 인간의 메타언어적 능력 사이의 근본적인 격차를 드러내는 인지과학적으로 근거 있는 평가 패러다임을 확립합니다.
English
Large Language Models (LLMs) achieve gold-medal performance across many
benchmarks, yet it remains unclear whether such success reflects genuine
reasoning or pattern matching. From a cognitive science perspective, an
informative test is whether models can master an unfamiliar language through
explicit metalinguistic deductive learning, a paradigm where human learners can
reliably internalise grammatical systems through metalinguistic reasoning. We
address this question with Camlang, a novel constructed language that exhibits
naturalistic yet unattested feature combinations. Camlang consists of two
explicit resources, a grammar book and a bilingual dictionary, which mirror
adult second-language learning via explicit grammar rules and lexical lookup,
and enable us to disentangle errors in morpho-syntax, lexical semantics, and
sentence-level reasoning. Human experiments show that these resources are
sufficient for participants to acquire Camlang and successfully solve Camlang
tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang,
creating Camlang-CSQA-v0, the first task in a broader suite where solving
questions requires applying grammar rules and lexical mappings. Experimental
results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in
Camlang, far below human performance at 87\%, while other state-of-the-art
reasoning LLMs perform even worse. Human verification further reveals that most
model successes stem from shallow lexical alignment while GPT-5 shows emerging
metalinguistic awareness to a limited extent but not systematic grammatical
mastery as humans. Camlang establishes a cognitively grounded evaluation
paradigm that exposes fundamental gaps between current models and human
metalinguistic competence.