Aprendendo Preditores Universais
Learning Universal Predictors
January 26, 2024
Autores: Jordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Grégoire Delétang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness
cs.AI
Resumo
O meta-aprendizado surgiu como uma abordagem poderosa para treinar redes neurais a aprender novas tarefas rapidamente a partir de dados limitados. A exposição ampla a diferentes tarefas leva a representações versáteis que permitem a resolução geral de problemas. Mas quais são os limites do meta-aprendizado? Neste trabalho, exploramos o potencial de amortizar o preditor universal mais poderoso, a Indução de Solomonoff (SI), em redes neurais, levando o meta-aprendizado ao seu limite. Utilizamos Máquinas de Turing Universais (MTUs) para gerar dados de treinamento usados para expor as redes a uma ampla gama de padrões. Fornecemos uma análise teórica dos processos de geração de dados das MTUs e dos protocolos de meta-treinamento. Realizamos experimentos abrangentes com arquiteturas neurais (por exemplo, LSTMs, Transformers) e geradores de dados algorítmicos de complexidade e universalidade variadas. Nossos resultados sugerem que os dados das MTUs são um recurso valioso para o meta-aprendizado e que podem ser usados para treinar redes neurais capazes de aprender estratégias universais de predição.
English
Meta-learning has emerged as a powerful approach to train neural networks to
learn new tasks quickly from limited data. Broad exposure to different tasks
leads to versatile representations enabling general problem solving. But, what
are the limits of meta-learning? In this work, we explore the potential of
amortizing the most powerful universal predictor, namely Solomonoff Induction
(SI), into neural networks via leveraging meta-learning to its limits. We use
Universal Turing Machines (UTMs) to generate training data used to expose
networks to a broad range of patterns. We provide theoretical analysis of the
UTM data generation processes and meta-training protocols. We conduct
comprehensive experiments with neural architectures (e.g. LSTMs, Transformers)
and algorithmic data generators of varying complexity and universality. Our
results suggest that UTM data is a valuable resource for meta-learning, and
that it can be used to train neural networks capable of learning universal
prediction strategies.