Universele Voorspellers Leren
Learning Universal Predictors
January 26, 2024
Auteurs: Jordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Grégoire Delétang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness
cs.AI
Samenvatting
Meta-learning is naar voren gekomen als een krachtige aanpak om neurale netwerken te trainen om snel nieuwe taken te leren met beperkte data. Brede blootstelling aan verschillende taken leidt tot veelzijdige representaties die algemeen probleemoplossend vermogen mogelijk maken. Maar wat zijn de grenzen van meta-learning? In dit werk onderzoeken we het potentieel van het amortiseren van de krachtigste universele voorspeller, namelijk Solomonoff Inductie (SI), in neurale netwerken door meta-learning tot het uiterste te benutten. We gebruiken Universele Turing Machines (UTM's) om trainingsdata te genereren die wordt gebruikt om netwerken bloot te stellen aan een breed scala aan patronen. We bieden een theoretische analyse van de UTM-datageneratieprocessen en meta-trainingsprotocollen. We voeren uitgebreide experimenten uit met neurale architecturen (bijv. LSTM's, Transformers) en algoritmische datageneratoren van variërende complexiteit en universaliteit. Onze resultaten suggereren dat UTM-data een waardevolle bron is voor meta-learning, en dat het kan worden gebruikt om neurale netwerken te trainen die in staat zijn universele voorspellingsstrategieën te leren.
English
Meta-learning has emerged as a powerful approach to train neural networks to
learn new tasks quickly from limited data. Broad exposure to different tasks
leads to versatile representations enabling general problem solving. But, what
are the limits of meta-learning? In this work, we explore the potential of
amortizing the most powerful universal predictor, namely Solomonoff Induction
(SI), into neural networks via leveraging meta-learning to its limits. We use
Universal Turing Machines (UTMs) to generate training data used to expose
networks to a broad range of patterns. We provide theoretical analysis of the
UTM data generation processes and meta-training protocols. We conduct
comprehensive experiments with neural architectures (e.g. LSTMs, Transformers)
and algorithmic data generators of varying complexity and universality. Our
results suggest that UTM data is a valuable resource for meta-learning, and
that it can be used to train neural networks capable of learning universal
prediction strategies.