Обучение универсальных предсказателей
Learning Universal Predictors
January 26, 2024
Авторы: Jordi Grau-Moya, Tim Genewein, Marcus Hutter, Laurent Orseau, Grégoire Delétang, Elliot Catt, Anian Ruoss, Li Kevin Wenliang, Christopher Mattern, Matthew Aitchison, Joel Veness
cs.AI
Аннотация
Метаобучение стало мощным подходом для обучения нейронных сетей быстрому освоению новых задач на основе ограниченных данных. Широкое знакомство с различными задачами приводит к формированию универсальных представлений, способствующих решению общих проблем. Но каковы пределы метаобучения? В данной работе мы исследуем потенциал амортизации наиболее мощного универсального предсказателя, а именно индукции Соломонова (SI), в нейронные сети, доводя метаобучение до его пределов. Мы используем универсальные машины Тьюринга (UTM) для генерации обучающих данных, которые позволяют познакомить сети с широким спектром паттернов. Мы предоставляем теоретический анализ процессов генерации данных UTM и протоколов метаобучения. Мы проводим всесторонние эксперименты с нейронными архитектурами (например, LSTM, трансформеры) и алгоритмическими генераторами данных различной сложности и универсальности. Наши результаты показывают, что данные UTM являются ценным ресурсом для метаобучения и могут быть использованы для обучения нейронных сетей, способных осваивать универсальные стратегии предсказания.
English
Meta-learning has emerged as a powerful approach to train neural networks to
learn new tasks quickly from limited data. Broad exposure to different tasks
leads to versatile representations enabling general problem solving. But, what
are the limits of meta-learning? In this work, we explore the potential of
amortizing the most powerful universal predictor, namely Solomonoff Induction
(SI), into neural networks via leveraging meta-learning to its limits. We use
Universal Turing Machines (UTMs) to generate training data used to expose
networks to a broad range of patterns. We provide theoretical analysis of the
UTM data generation processes and meta-training protocols. We conduct
comprehensive experiments with neural architectures (e.g. LSTMs, Transformers)
and algorithmic data generators of varying complexity and universality. Our
results suggest that UTM data is a valuable resource for meta-learning, and
that it can be used to train neural networks capable of learning universal
prediction strategies.