중첩 학습: 심층 학습 아키텍처의 환상
Nested Learning: The Illusion of Deep Learning Architectures
December 31, 2025
저자: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI
초록
최근 언어 모델 개발을 비롯한 여러 진전이 있었음에도 불구하고, 이러한 모델이 어떻게 지속적으로 학습/기억하고, 자기 개선하며, 효과적인 해결책을 찾아낼 수 있는지에 관한 근본적인 과제와 미해결 질문들이 남아 있습니다. 본 논문에서는 Nested Learning(NL)이라는 새로운 학습 패러다임을 제시합니다. NL은 기계 학습 모델을 각각 고유의 컨텍스트 흐름을 갖는 일련의 중첩된, 다중 수준의, 그리고/또는 병렬 최적화 문제들로 응집력 있게 표현합니다. NL의 관점에서 보면, 기존의 딥러닝 방법들은 자체 컨텍스트 흐름을 압축하며 데이터로부터 학습하며, 대규모 모델에서는 인-컨텍스트 학습이 자연스럽게 나타납니다. NL은 더 많은 수준을 갖춘, 더 표현력이 풍부한 학습 알고리즘을 설계하는 철학을 제안하며, 이는 고차원 인-컨텍스트 학습을 초래하고 효과적인 지속 학습 능력을 잠재적으로 해제할 수 있습니다. 우리는 NL의 타당성을 입증하기 위해 세 가지 핵심 기여를 제시합니다: (1) 표현력丰富的 최적화 도구: Adam, Momentum SGD 등 알려진 경사하강법 기반 최적화 도구들이 사실은 경사하강법을 통해 경사도 정보를 압축하려는 연관 메모리 모듈임을 보여줍니다. 이 통찰을 바탕으로 심층 메모리 및/또는 더 강력한 학습 규칙을 가진 다른 표현력丰富的 최적화 도구들을 제시합니다. (2) 자기 수정 학습 모듈: 학습 알고리즘에 대한 NL의 통찰을 활용하여, 자신의 업데이트 알고리즘을 학습함으로써 스스로를 수정하는 방법을 학습하는 시퀀스 모델을 제시합니다. (3) 연속체 메모리 시스템: 기존의 장기/단기 기억 관점을 일반화하는 새로운 메모리 시스템 공식을 제시합니다. 우리의 자기 수정 시퀀스 모델과 연속체 메모리 시스템을 결합하여 Hope라는 지속 학습 모듈을 선보이며, 언어 모델링, 지식 통합, few-shot 일반화 과제, 지속 학습, 그리고 장문 컨텍스트 추론 과제에서 유망한 결과를 보여줍니다.
English
Despite the recent progresses, particularly in developing Language Models, there are fundamental challenges and unanswered questions about how such models can continually learn/memorize, self-improve, and find effective solutions. In this paper, we present a new learning paradigm, called Nested Learning (NL), that coherently represents a machine learning model with a set of nested, multi-level, and/or parallel optimization problems, each of which with its own context flow. Through the lenses of NL, existing deep learning methods learns from data through compressing their own context flow, and in-context learning naturally emerges in large models. NL suggests a philosophy to design more expressive learning algorithms with more levels, resulting in higher-order in-context learning and potentially unlocking effective continual learning capabilities. We advocate for NL by presenting three core contributions: (1) Expressive Optimizers: We show that known gradient-based optimizers, such as Adam, SGD with Momentum, etc., are in fact associative memory modules that aim to compress the gradients' information (by gradient descent). Building on this insight, we present other more expressive optimizers with deep memory and/or more powerful learning rules; (2) Self-Modifying Learning Module: Taking advantage of NL's insights on learning algorithms, we present a sequence model that learns how to modify itself by learning its own update algorithm; and (3) Continuum Memory System: We present a new formulation for memory system that generalizes the traditional viewpoint of long/short-term memory. Combining our self-modifying sequence model with the continuum memory system, we present a continual learning module, called Hope, showing promising results in language modeling, knowledge incorporation, and few-shot generalization tasks, continual learning, and long-context reasoning tasks.