Apprendimento di Predittori Universali
Learning Universal Predictors
January 26, 2024
Autori: Jordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Grégoire Delétang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness
cs.AI
Abstract
Il meta-apprendimento è emerso come un approccio potente per addestrare reti neurali a imparare rapidamente nuovi compiti partendo da dati limitati. Un'esposizione ampia a diversi compiti porta a rappresentazioni versatili che abilitano la risoluzione generale di problemi. Ma quali sono i limiti del meta-apprendimento? In questo lavoro, esploriamo il potenziale di ammortizzare il più potente predittore universale, ovvero l'induzione di Solomonoff (SI), nelle reti neurali sfruttando il meta-apprendimento ai suoi limiti. Utilizziamo Macchine di Turing Universali (UTM) per generare dati di addestramento che espongono le reti a un'ampia gamma di pattern. Forniamo un'analisi teorica dei processi di generazione dei dati UTM e dei protocolli di meta-addestramento. Condividiamo esperimenti completi con architetture neurali (ad esempio LSTMs, Transformers) e generatori di dati algoritmici di varia complessità e universalità. I nostri risultati suggeriscono che i dati UTM sono una risorsa preziosa per il meta-apprendimento e che possono essere utilizzati per addestrare reti neurali capaci di apprendere strategie di predizione universale.
English
Meta-learning has emerged as a powerful approach to train neural networks to
learn new tasks quickly from limited data. Broad exposure to different tasks
leads to versatile representations enabling general problem solving. But, what
are the limits of meta-learning? In this work, we explore the potential of
amortizing the most powerful universal predictor, namely Solomonoff Induction
(SI), into neural networks via leveraging meta-learning to its limits. We use
Universal Turing Machines (UTMs) to generate training data used to expose
networks to a broad range of patterns. We provide theoretical analysis of the
UTM data generation processes and meta-training protocols. We conduct
comprehensive experiments with neural architectures (e.g. LSTMs, Transformers)
and algorithmic data generators of varying complexity and universality. Our
results suggest that UTM data is a valuable resource for meta-learning, and
that it can be used to train neural networks capable of learning universal
prediction strategies.