Oltre la memorizzazione: Estendere la profondità del ragionamento con ricorrenza, memoria e scalabilità del calcolo al momento del test
Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling
August 22, 2025
Autori: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev
cs.AI
Abstract
Il ragionamento è una capacità fondamentale dei grandi modelli linguistici, ma comprendere come apprendono ed eseguono ragionamenti a più passaggi rimane un problema aperto. In questo studio, esploriamo come diverse architetture e metodi di addestramento influenzino le capacità di ragionamento a più passaggi dei modelli all'interno di un framework di automi cellulari. Addestrando su sequenze di stati generate con funzioni booleane casuali per condizioni iniziali casuali per escludere la memorizzazione, dimostriamo che la maggior parte delle architetture neurali apprende ad astrarre le regole sottostanti. Sebbene i modelli raggiungano un'elevata accuratezza nella previsione dello stato successivo, le loro prestazioni diminuiscono drasticamente se è richiesto un ragionamento a più passaggi. Confermiamo che l'aumento della profondità del modello gioca un ruolo cruciale per i calcoli sequenziali. Dimostriamo che un'estensione della profondità effettiva del modello con ricorrenza, memoria e scalabilità del calcolo al momento del test migliora sostanzialmente le capacità di ragionamento.
English
Reasoning is a core capability of large language models, yet understanding
how they learn and perform multi-step reasoning remains an open problem. In
this study, we explore how different architectures and training methods affect
model multi-step reasoning capabilities within a cellular automata framework.
By training on state sequences generated with random Boolean functions for
random initial conditions to exclude memorization, we demonstrate that most
neural architectures learn to abstract the underlying rules. While models
achieve high accuracy in next-state prediction, their performance declines
sharply if multi-step reasoning is required. We confirm that increasing model
depth plays a crucial role for sequential computations. We demonstrate that an
extension of the effective model depth with recurrence, memory, and test-time
compute scaling substantially enhances reasoning capabilities.