Más allá de la memorización: Extendiendo la profundidad del razonamiento con recurrencia, memoria y escalado de cómputo en tiempo de prueba
Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling
August 22, 2025
Autores: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev
cs.AI
Resumen
El razonamiento es una capacidad fundamental de los modelos de lenguaje de gran escala, sin embargo, comprender cómo aprenden y realizan razonamientos de múltiples pasos sigue siendo un problema abierto. En este estudio, exploramos cómo diferentes arquitecturas y métodos de entrenamiento afectan las capacidades de razonamiento de múltiples pasos de los modelos dentro de un marco de autómatas celulares. Al entrenar con secuencias de estados generadas mediante funciones booleanas aleatorias para condiciones iniciales aleatorias, con el fin de excluir la memorización, demostramos que la mayoría de las arquitecturas neuronales aprenden a abstraer las reglas subyacentes. Aunque los modelos alcanzan una alta precisión en la predicción del siguiente estado, su rendimiento disminuye drásticamente si se requiere razonamiento de múltiples pasos. Confirmamos que aumentar la profundidad del modelo juega un papel crucial para los cálculos secuenciales. Demostramos que una extensión de la profundidad efectiva del modelo con recurrencia, memoria y escalado de cómputo en tiempo de prueba mejora sustancialmente las capacidades de razonamiento.
English
Reasoning is a core capability of large language models, yet understanding
how they learn and perform multi-step reasoning remains an open problem. In
this study, we explore how different architectures and training methods affect
model multi-step reasoning capabilities within a cellular automata framework.
By training on state sequences generated with random Boolean functions for
random initial conditions to exclude memorization, we demonstrate that most
neural architectures learn to abstract the underlying rules. While models
achieve high accuracy in next-state prediction, their performance declines
sharply if multi-step reasoning is required. We confirm that increasing model
depth plays a crucial role for sequential computations. We demonstrate that an
extension of the effective model depth with recurrence, memory, and test-time
compute scaling substantially enhances reasoning capabilities.