ChatPaper.aiChatPaper

ネスト化された学習:深層学習アーキテクチャの幻想

Nested Learning: The Illusion of Deep Learning Architectures

December 31, 2025
著者: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni
cs.AI

要旨

近年の進歩、特に言語モデルの開発において顕著な発展が見られるにもかかわらず、このようなモデルがどのように継続的学習/記憶、自己改善、効果的な解決策の発見を行うかについては、根本的な課題や未解決の問題が残されています。本論文では、ネスト化学習(Nested Learning: NL)と呼ばれる新しい学習パラダイムを提案します。これは、機械学習モデルを、それぞれが独自のコンテキストフローを持つ、ネスト化されたマルチレベルおよび/または並列最適化問題の集合として一貫して表現するものです。NLの観点から見ると、既存の深層学習手法は自身のコンテキストフローを圧縮することでデータから学習しており、大規模モデルにおいてインコンテキスト学習が自然に出現することがわかります。NLは、より多くのレベルを持つより表現力豊かな学習アルゴリズムを設計するための哲学を示唆し、その結果、高次元のインコンテキスト学習を実現し、効果的な継続的学習能力を潜在的に解放する可能性があります。我々は以下の3つの核心的な貢献を通じてNLの有効性を主張します:(1)表現力豊かなオプティマイザ:既知の勾配ベースオプティマイザ(Adam、運動量付きSGDなど)が、実際には勾配情報を(勾配降下法によって)圧縮することを目的とした連想記憶モジュールであることを示します。この知見に基づき、深層メモリおよび/またはより強力な学習規則を持つ、より表現力豊かな他のオプティマイザを提示します。(2)自己修正型学習モジュール:学習アルゴリズムに関するNLの洞察を活用し、自身の更新アルゴリズムを学習することで自己修正を行うシーケンスモデルを提示します。(3)連続メモリシステム:従来の長期/短期記憶の視点を一般化する新しいメモリシステムの定式化を提示します。自己修正型シーケンスモデルと連続メモリシステムを組み合わせることで、Hopeと名付けた継続的学習モジュールを提案し、言語モデリング、知識統合、数ショット一般化タスク、継続的学習、長文脈推論タスクにおいて有望な結果を示しています。
English
Despite the recent progresses, particularly in developing Language Models, there are fundamental challenges and unanswered questions about how such models can continually learn/memorize, self-improve, and find effective solutions. In this paper, we present a new learning paradigm, called Nested Learning (NL), that coherently represents a machine learning model with a set of nested, multi-level, and/or parallel optimization problems, each of which with its own context flow. Through the lenses of NL, existing deep learning methods learns from data through compressing their own context flow, and in-context learning naturally emerges in large models. NL suggests a philosophy to design more expressive learning algorithms with more levels, resulting in higher-order in-context learning and potentially unlocking effective continual learning capabilities. We advocate for NL by presenting three core contributions: (1) Expressive Optimizers: We show that known gradient-based optimizers, such as Adam, SGD with Momentum, etc., are in fact associative memory modules that aim to compress the gradients' information (by gradient descent). Building on this insight, we present other more expressive optimizers with deep memory and/or more powerful learning rules; (2) Self-Modifying Learning Module: Taking advantage of NL's insights on learning algorithms, we present a sequence model that learns how to modify itself by learning its own update algorithm; and (3) Continuum Memory System: We present a new formulation for memory system that generalizes the traditional viewpoint of long/short-term memory. Combining our self-modifying sequence model with the continuum memory system, we present a continual learning module, called Hope, showing promising results in language modeling, knowledge incorporation, and few-shot generalization tasks, continual learning, and long-context reasoning tasks.
PDF193January 6, 2026