CodeIt : Modèles de langage auto-améliorés avec relecture priorisée a posteriori
CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay
February 7, 2024
Auteurs: Natasha Butt, Blazej Manczak, Auke Wiggers, Corrado Rainone, David Zhang, Michaël Defferrard, Taco Cohen
cs.AI
Résumé
Les grands modèles de langage résolvent de plus en plus de tâches que l'on considère généralement comme nécessitant une capacité de raisonnement de niveau humain. Cependant, ces modèles restent très peu performants sur des benchmarks d'intelligence générale tels que le Corpus d'Abstraction et de Raisonnement (ARC). Dans cet article, nous abordons ARC comme un problème de programmation par exemples et introduisons une méthode novatrice et évolutive d'auto-amélioration des modèles de langage appelée Itération de Code (CodeIt). Notre méthode alterne entre 1) l'échantillonnage de programmes et le re-étiquetage rétrospectif, et 2) l'apprentissage par relecture priorisée des expériences. En re-étiquetant l'objectif d'un épisode (c'est-à-dire la sortie du programme cible pour une entrée donnée) avec la sortie réalisée produite par le programme échantillonné, notre méthode traite efficacement l'extrême rareté des récompenses dans la synthèse de programmes. En appliquant CodeIt au jeu de données ARC, nous démontrons que la relecture rétrospective priorisée, combinée à un pré-entraînement et à une augmentation des données, permet une généralisation inter-tâches réussie. CodeIt est la première approche neuro-symbolique qui s'adapte à l'ensemble du jeu de données d'évaluation ARC. Notre méthode résout 15 % des tâches d'évaluation ARC, atteignant des performances de pointe et surpassant les bases de référence neuronales et symboliques existantes.
English
Large language models are increasingly solving tasks that are commonly
believed to require human-level reasoning ability. However, these models still
perform very poorly on benchmarks of general intelligence such as the
Abstraction and Reasoning Corpus (ARC). In this paper, we approach ARC as a
programming-by-examples problem, and introduce a novel and scalable method for
language model self-improvement called Code Iteration (CodeIt). Our method
iterates between 1) program sampling and hindsight relabeling, and 2) learning
from prioritized experience replay. By relabeling the goal of an episode (i.e.,
the target program output given input) to the realized output produced by the
sampled program, our method effectively deals with the extreme sparsity of
rewards in program synthesis. Applying CodeIt to the ARC dataset, we
demonstrate that prioritized hindsight replay, along with pre-training and
data-augmentation, leads to successful inter-task generalization. CodeIt is the
first neuro-symbolic approach that scales to the full ARC evaluation dataset.
Our method solves 15% of ARC evaluation tasks, achieving state-of-the-art
performance and outperforming existing neural and symbolic baselines.