Voorbij Memorisatie: Het Uitbreiden van Redeneerdiepte met Herhaling, Geheugen en Schaalbaarheid van Rekentijd tijdens Testen
Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling
August 22, 2025
Auteurs: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev
cs.AI
Samenvatting
Redeneren is een kernvaardigheid van grote taalmodellen, maar het begrijpen
van hoe ze leren en meerstaps redeneren uitvoeren, blijft een open probleem. In
deze studie onderzoeken we hoe verschillende architecturen en trainingsmethoden
de meerstaps redeneervaardigheden van modellen beïnvloeden binnen een raamwerk
van cellulaire automaten. Door te trainen op toestandssequenties die gegenereerd
zijn met willekeurige Booleaanse functies voor willekeurige begincondities om
memorisering uit te sluiten, tonen we aan dat de meeste neurale architecturen
leren om de onderliggende regels te abstraheren. Hoewel modellen een hoge
nauwkeurigheid bereiken in het voorspellen van de volgende toestand, neemt hun
prestatie sterk af als meerstaps redeneren vereist is. We bevestigen dat het
vergroten van de modeldiepte een cruciale rol speelt voor sequentiële berekeningen.
We demonstreren dat een uitbreiding van de effectieve modeldiepte met recurrentie,
geheugen en schaling van rekentijd tijdens het testen de redeneervaardigheden
aanzienlijk verbetert.
English
Reasoning is a core capability of large language models, yet understanding
how they learn and perform multi-step reasoning remains an open problem. In
this study, we explore how different architectures and training methods affect
model multi-step reasoning capabilities within a cellular automata framework.
By training on state sequences generated with random Boolean functions for
random initial conditions to exclude memorization, we demonstrate that most
neural architectures learn to abstract the underlying rules. While models
achieve high accuracy in next-state prediction, their performance declines
sharply if multi-step reasoning is required. We confirm that increasing model
depth plays a crucial role for sequential computations. We demonstrate that an
extension of the effective model depth with recurrence, memory, and test-time
compute scaling substantially enhances reasoning capabilities.