Lernen universeller Vorhersagemodelle
Learning Universal Predictors
January 26, 2024
Autoren: Jordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Grégoire Delétang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness
cs.AI
Zusammenfassung
Meta-Learning hat sich als leistungsstarker Ansatz etabliert, um neuronale Netze darauf zu trainieren, neue Aufgaben schnell aus begrenzten Daten zu erlernen. Die breite Exposition gegenüber verschiedenen Aufgaben führt zu vielseitigen Repräsentationen, die allgemeine Problemlösungen ermöglichen. Doch wo liegen die Grenzen des Meta-Learnings? In dieser Arbeit untersuchen wir das Potenzial, den leistungsfähigsten universellen Prädiktor, nämlich die Solomonoff-Induktion (SI), durch die Ausschöpfung der Grenzen des Meta-Learnings in neuronale Netze zu amortisieren. Wir verwenden Universelle Turingmaschinen (UTMs), um Trainingsdaten zu generieren, die Netze einer breiten Palette von Mustern aussetzen. Wir bieten eine theoretische Analyse der UTM-Datengenerierungsprozesse und Meta-Trainingsprotokolle. Wir führen umfassende Experimente mit neuronalen Architekturen (z. B. LSTMs, Transformers) und algorithmischen Datengeneratoren unterschiedlicher Komplexität und Universalität durch. Unsere Ergebnisse deuten darauf hin, dass UTM-Daten eine wertvolle Ressource für Meta-Learning sind und verwendet werden können, um neuronale Netze zu trainieren, die universelle Vorhersagestrategien erlernen können.
English
Meta-learning has emerged as a powerful approach to train neural networks to
learn new tasks quickly from limited data. Broad exposure to different tasks
leads to versatile representations enabling general problem solving. But, what
are the limits of meta-learning? In this work, we explore the potential of
amortizing the most powerful universal predictor, namely Solomonoff Induction
(SI), into neural networks via leveraging meta-learning to its limits. We use
Universal Turing Machines (UTMs) to generate training data used to expose
networks to a broad range of patterns. We provide theoretical analysis of the
UTM data generation processes and meta-training protocols. We conduct
comprehensive experiments with neural architectures (e.g. LSTMs, Transformers)
and algorithmic data generators of varying complexity and universality. Our
results suggest that UTM data is a valuable resource for meta-learning, and
that it can be used to train neural networks capable of learning universal
prediction strategies.