Jenseits des Auswendiglernens: Erweiterung der Denktiefe durch Rekurrenz, Gedächtnis und Skalierung der Rechenleistung zur Testzeit
Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling
August 22, 2025
papers.authors: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev
cs.AI
papers.abstract
Das logische Schließen ist eine Kernfähigkeit großer Sprachmodelle, doch das Verständnis darüber, wie sie mehrschrittiges logisches Denken erlernen und ausführen, bleibt ein ungelöstes Problem. In dieser Studie untersuchen wir, wie verschiedene Architekturen und Trainingsmethoden die Fähigkeit von Modellen zum mehrschrittigen logischen Denken innerhalb eines zellulären Automaten-Frameworks beeinflussen. Durch das Training an Zustandssequenzen, die mit zufälligen Booleschen Funktionen für zufällige Anfangsbedingungen generiert wurden, um Auswendiglernen auszuschließen, zeigen wir, dass die meisten neuronalen Architekturen lernen, die zugrunde liegenden Regeln zu abstrahieren. Während Modelle eine hohe Genauigkeit bei der Vorhersage des nächsten Zustands erreichen, sinkt ihre Leistung deutlich, wenn mehrschrittiges logisches Denken erforderlich ist. Wir bestätigen, dass die Erhöhung der Modelltiefe eine entscheidende Rolle für sequenzielle Berechnungen spielt. Wir zeigen, dass eine Erweiterung der effektiven Modelltiefe durch Rekurrenz, Speicher und Skalierung der Rechenleistung zur Testzeit die Fähigkeiten zum logischen Denken erheblich verbessert.
English
Reasoning is a core capability of large language models, yet understanding
how they learn and perform multi-step reasoning remains an open problem. In
this study, we explore how different architectures and training methods affect
model multi-step reasoning capabilities within a cellular automata framework.
By training on state sequences generated with random Boolean functions for
random initial conditions to exclude memorization, we demonstrate that most
neural architectures learn to abstract the underlying rules. While models
achieve high accuracy in next-state prediction, their performance declines
sharply if multi-step reasoning is required. We confirm that increasing model
depth plays a crucial role for sequential computations. We demonstrate that an
extension of the effective model depth with recurrence, memory, and test-time
compute scaling substantially enhances reasoning capabilities.