기억을 넘어: 반복, 메모리 및 테스트 시간 계산 확장을 통한 추론 깊이 확장
Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling
August 22, 2025
저자: Ivan Rodkin, Daniil Orel, Konstantin Smirnov, Arman Bolatov, Bilal Elbouardi, Besher Hassan, Yuri Kuratov, Aydar Bulatov, Preslav Nakov, Timothy Baldwin, Artem Shelmanov, Mikhail Burtsev
cs.AI
초록
추론은 대규모 언어 모델의 핵심 능력이지만, 이러한 모델이 어떻게 다단계 추론을 학습하고 수행하는지에 대한 이해는 여전히 미해결 문제로 남아 있습니다. 본 연구에서는 다양한 아키텍처와 학습 방법이 셀룰러 오토마타 프레임워크 내에서 모델의 다단계 추론 능력에 미치는 영향을 탐구합니다. 무작위 초기 조건에 대해 무작위 부울 함수로 생성된 상태 시퀀스를 학습시켜 암기 가능성을 배제함으로써, 대부분의 신경망 아키텍처가 기본 규칙을 추상화하는 것을 학습한다는 것을 입증합니다. 모델들은 다음 상태 예측에서는 높은 정확도를 달성하지만, 다단계 추론이 요구될 경우 성능이 급격히 저하됩니다. 모델의 깊이를 증가시키는 것이 순차적 계산에 중요한 역할을 한다는 것을 확인했습니다. 또한, 재귀, 메모리, 그리고 테스트 시간 계산 확장을 통해 효과적인 모델 깊이를 확장함으로써 추론 능력이 크게 향상된다는 것을 입증합니다.
English
Reasoning is a core capability of large language models, yet understanding
how they learn and perform multi-step reasoning remains an open problem. In
this study, we explore how different architectures and training methods affect
model multi-step reasoning capabilities within a cellular automata framework.
By training on state sequences generated with random Boolean functions for
random initial conditions to exclude memorization, we demonstrate that most
neural architectures learn to abstract the underlying rules. While models
achieve high accuracy in next-state prediction, their performance declines
sharply if multi-step reasoning is required. We confirm that increasing model
depth plays a crucial role for sequential computations. We demonstrate that an
extension of the effective model depth with recurrence, memory, and test-time
compute scaling substantially enhances reasoning capabilities.