Tellen als minimale test voor de betrouwbaarheid van taalmodellen

Samenvatting

Grote taalmodellen presteren sterk op benchmarks voor wiskundig redeneren, coderen en documentanalyse, wat wijst op een breed vermogen om instructies te volgen. Het blijft echter onduidelijk of dit succes een algemene logische competentie weerspiegelt, de herhaalde toepassing van aangeleerde procedures, of patroonherkenning die regeluitvoering nabootst. Wij onderzoeken deze vraag door de Introductie van Stabiel Telvermogen, een toets waarbij modellen herhaalde symbolen tellen totdat ze falen. Deze toets verwijdert kennisdependencies, semantiek en ambiguïteit uit de evaluatie, vermijdt lexicale en tokenisatieverstorende factoren, en biedt een directe maatstaf voor procedurele betrouwbaarheid die verder gaat dan standaard kennisgebaseerde benchmarks. Hier tonen wij aan, over meer dan 100 modelvarianten, dat het stabiele telvermogen ver onder de geadverteerde contextlimieten blijft. Het modelgedrag is consistent noch met open-ended logica, noch met de stabiele toepassing van een aangeleerde regel, maar eerder met het gebruik van een beperkte set telachtige interne toestanden, vergelijkbaar met tellen op de vingers. Zodra deze resource uitgeput is, verdwijnt de schijn van regelvolgend gedrag en stort exacte uitvoering ineen in gokken, zelfs met extra rekencapaciteit tijdens het testen. Deze bevindingen tonen aan dat vloeiende prestaties van huidige taalmodellen geen algemene, betrouwbare regelvolging garanderen.

English

Large language models perform strongly on benchmarks in mathematical reasoning, coding and document analysis, suggesting a broad ability to follow instructions. However, it remains unclear whether such success reflects general logical competence, repeated application of learned procedures, or pattern matching that mimics rule execution. We investigate this question by introducing Stable Counting Capacity, an assay in which models count repeated symbols until failure. The assay removes knowledge dependencies, semantics and ambiguity from evaluation, avoids lexical and tokenization confounds, and provides a direct measure of procedural reliability beyond standard knowledge-based benchmarks. Here we show, across more than 100 model variants, that stable counting capacity remains far below advertised context limits. Model behavior is consistent neither with open-ended logic nor with stable application of a learned rule, but instead with use of a finite set of count-like internal states, analogous to counting on fingers. Once this resource is exhausted, the appearance of rule following disappears and exact execution collapses into guessing, even with additional test-time compute. These findings show that fluent performance in current language models does not guarantee general, reliable rule following.

Tellen als minimale test voor de betrouwbaarheid van taalmodellen

Counting as a minimal probe of language model reliability

Samenvatting

Support