Geneste Leren: De Illusie van Diepe Leerarchitecturen

Samenvatting

Ondanks de recente vooruitgang, met name in de ontwikkeling van taalmodellen, bestaan er fundamentele uitdagingen en onbeantwoorde vragen over hoe dergelijke modellen continu kunnen leren/onthouden, zichzelf kunnen verbeteren en effectieve oplossingen kunnen vinden. In dit artikel presenteren we een nieuw leerparadigma, genaamd Nested Learning (NL), dat een machine learning-model coherent weergeeft als een verzameling geneste, multi-level en/of parallelle optimalisatieproblemen, elk met een eigen contextstroom. Door de lens van NL bezien, leren bestaande deep learning-methoden van gegevens door hun eigen contextstroom te comprimeren, en in-context learning ontstaat vanzelf in grote modellen. NL suggereert een filosofie om expressievere leeralgorithmen te ontwerpen met meer niveaus, wat resulteert in in-context learning van een hogere orde en mogelijk effectieve continuële vermogens ontgrendelt. We bepleiten NL door drie kernbijdragen te presenteren: (1) Expressieve Optimalisatoren: We tonen aan dat bekende op gradienten gebaseerde optimalisatoren, zoals Adam, SGD met Momentum, enz., in feite associatieve geheugenmodules zijn die ernaar streven de informatie van gradienten te comprimeren (via gradient descent). Voortbouwend op dit inzicht presenteren we andere, expressievere optimalisatoren met een diep geheugen en/of krachtigere leerregels; (2) Zelfmodificerende Leermodule: Gebruikmakend van de inzichten van NL in leeralgorithmen, presenteren we een sequentiemodel dat leert hoe het zichzelf moet modificeren door zijn eigen update-algoritme te leren; en (3) Continuümgeheugensysteem: We presenteren een nieuwe formulering voor een geheugensysteem dat het traditionele perspectief van lang/kortetermijngeheugen generaliseert. Door ons zelfmodificerende sequentiemodel te combineren met het continuümgeheugensysteem, presenteren we een continuële leermodule, genaamd Hope, die veelbelovende resultaten laat zien in taalmodelleer-, kennisintegratie- en few-shot generalisatietaken, continuële leertaken en taken voor redeneren over lange contexten.

English

Despite the recent progresses, particularly in developing Language Models, there are fundamental challenges and unanswered questions about how such models can continually learn/memorize, self-improve, and find effective solutions. In this paper, we present a new learning paradigm, called Nested Learning (NL), that coherently represents a machine learning model with a set of nested, multi-level, and/or parallel optimization problems, each of which with its own context flow. Through the lenses of NL, existing deep learning methods learns from data through compressing their own context flow, and in-context learning naturally emerges in large models. NL suggests a philosophy to design more expressive learning algorithms with more levels, resulting in higher-order in-context learning and potentially unlocking effective continual learning capabilities. We advocate for NL by presenting three core contributions: (1) Expressive Optimizers: We show that known gradient-based optimizers, such as Adam, SGD with Momentum, etc., are in fact associative memory modules that aim to compress the gradients' information (by gradient descent). Building on this insight, we present other more expressive optimizers with deep memory and/or more powerful learning rules; (2) Self-Modifying Learning Module: Taking advantage of NL's insights on learning algorithms, we present a sequence model that learns how to modify itself by learning its own update algorithm; and (3) Continuum Memory System: We present a new formulation for memory system that generalizes the traditional viewpoint of long/short-term memory. Combining our self-modifying sequence model with the continuum memory system, we present a continual learning module, called Hope, showing promising results in language modeling, knowledge incorporation, and few-shot generalization tasks, continual learning, and long-context reasoning tasks.

Geneste Leren: De Illusie van Diepe Leerarchitecturen

Nested Learning: The Illusion of Deep Learning Architectures

Samenvatting

Support