El conteo como prueba mínima de la fiabilidad de los modelos de lenguaje
Counting as a minimal probe of language model reliability
May 3, 2026
Autores: Tianxiang Dai, Jonathan Fan
cs.AI
Resumen
Los modelos de lenguaje a gran escala muestran un alto rendimiento en pruebas comparativas de razonamiento matemático, codificación y análisis de documentos, lo que sugiere una amplia capacidad para seguir instrucciones. Sin embargo, sigue sin estar claro si dicho éxito refleja una competencia lógica general, la aplicación repetida de procedimientos aprendidos o una coincidencia de patrones que imita la ejecución de reglas. Investigamos esta cuestión mediante la introducción de la Capacidad de Conteo Estable, un ensayo en el que los modelos cuentan símbolos repetidos hasta fallar. El ensayo elimina las dependencias de conocimiento, la semántica y la ambigüedad de la evaluación, evita confusiones léxicas y de tokenización, y proporciona una medida directa de la fiabilidad procedimental más allá de los puntos de referencia estándar basados en conocimiento. Aquí demostramos, en más de 100 variantes de modelos, que la capacidad de conteo estable permanece muy por debajo de los límites de contexto publicitados. El comportamiento del modelo no es consistente ni con una lógica abierta ni con la aplicación estable de una regla aprendida, sino con el uso de un conjunto finito de estados internos similares al conteo, análogo a contar con los dedos. Una vez que se agota este recurso, la apariencia de seguimiento de reglas desaparece y la ejecución exacta colapsa en conjeturas, incluso con capacidad de cálculo adicional durante la prueba. Estos hallazgos demuestran que el desempeño fluido en los modelos de lenguaje actuales no garantiza un seguimiento de reglas general y confiable.
English
Large language models perform strongly on benchmarks in mathematical reasoning, coding and document analysis, suggesting a broad ability to follow instructions. However, it remains unclear whether such success reflects general logical competence, repeated application of learned procedures, or pattern matching that mimics rule execution. We investigate this question by introducing Stable Counting Capacity, an assay in which models count repeated symbols until failure. The assay removes knowledge dependencies, semantics and ambiguity from evaluation, avoids lexical and tokenization confounds, and provides a direct measure of procedural reliability beyond standard knowledge-based benchmarks. Here we show, across more than 100 model variants, that stable counting capacity remains far below advertised context limits. Model behavior is consistent neither with open-ended logic nor with stable application of a learned rule, but instead with use of a finite set of count-like internal states, analogous to counting on fingers. Once this resource is exhausted, the appearance of rule following disappears and exact execution collapses into guessing, even with additional test-time compute. These findings show that fluent performance in current language models does not guarantee general, reliable rule following.