ChatPaper.aiChatPaper

Las medallas de oro en una habitación vacía: Diagnóstico del razonamiento metalingüístico en modelos de lenguaje con Camlang

The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang

August 30, 2025
Autores: Fenghua Liu, Yulong Chen, Yixuan Liu, Zhujun Jin, Solomon Tsai, Ming Zhong
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) logran un rendimiento de medalla de oro en muchos puntos de referencia, pero sigue sin estar claro si dicho éxito refleja un razonamiento genuino o simplemente la coincidencia de patrones. Desde una perspectiva de la ciencia cognitiva, una prueba informativa es si los modelos pueden dominar un lenguaje desconocido a través del aprendizaje deductivo metalingüístico explícito, un paradigma en el que los aprendices humanos pueden internalizar de manera confiable sistemas gramaticales mediante el razonamiento metalingüístico. Abordamos esta pregunta con Camlang, un lenguaje construido novedoso que exhibe combinaciones de características naturalistas pero no atestiguadas. Camlang consta de dos recursos explícitos, un libro de gramática y un diccionario bilingüe, que reflejan el aprendizaje de un segundo idioma en adultos a través de reglas gramaticales explícitas y búsquedas léxicas, y nos permiten desentrañar errores en morfosintaxis, semántica léxica y razonamiento a nivel de oración. Los experimentos con humanos muestran que estos recursos son suficientes para que los participantes adquieran Camlang y resuelvan con éxito tareas en este lenguaje. Para operacionalizar la evaluación, adaptamos CommonsenseQA a Camlang, creando Camlang-CSQA-v0, la primera tarea en un conjunto más amplio donde resolver preguntas requiere aplicar reglas gramaticales y mapeos léxicos. Los resultados experimentales muestran que GPT-5 alcanza un 98\% de precisión EM en inglés, pero solo un 47\% en Camlang, muy por debajo del rendimiento humano del 87\%, mientras que otros LLMs de razonamiento de última generación tienen un desempeño aún peor. La verificación humana revela además que la mayoría de los éxitos del modelo se deben a una alineación léxica superficial, mientras que GPT-5 muestra un incipiente conocimiento metalingüístico en cierta medida, pero no un dominio gramatical sistemático como los humanos. Camlang establece un paradigma de evaluación cognitivamente fundamentado que expone brechas fundamentales entre los modelos actuales y la competencia metalingüística humana.
English
Large Language Models (LLMs) achieve gold-medal performance across many benchmarks, yet it remains unclear whether such success reflects genuine reasoning or pattern matching. From a cognitive science perspective, an informative test is whether models can master an unfamiliar language through explicit metalinguistic deductive learning, a paradigm where human learners can reliably internalise grammatical systems through metalinguistic reasoning. We address this question with Camlang, a novel constructed language that exhibits naturalistic yet unattested feature combinations. Camlang consists of two explicit resources, a grammar book and a bilingual dictionary, which mirror adult second-language learning via explicit grammar rules and lexical lookup, and enable us to disentangle errors in morpho-syntax, lexical semantics, and sentence-level reasoning. Human experiments show that these resources are sufficient for participants to acquire Camlang and successfully solve Camlang tasks. To operationalise evaluation, we adapt CommonsenseQA into Camlang, creating Camlang-CSQA-v0, the first task in a broader suite where solving questions requires applying grammar rules and lexical mappings. Experimental results show that GPT-5 achieves 98\% EM accuracy in English but only 47\% in Camlang, far below human performance at 87\%, while other state-of-the-art reasoning LLMs perform even worse. Human verification further reveals that most model successes stem from shallow lexical alignment while GPT-5 shows emerging metalinguistic awareness to a limited extent but not systematic grammatical mastery as humans. Camlang establishes a cognitively grounded evaluation paradigm that exposes fundamental gaps between current models and human metalinguistic competence.
PDF101September 3, 2025