CodeIt : Modèles de langage auto-améliorés avec relecture priorisée a posteriori

papers.abstract

Les grands modèles de langage résolvent de plus en plus de tâches que l'on considère généralement comme nécessitant une capacité de raisonnement de niveau humain. Cependant, ces modèles restent très peu performants sur des benchmarks d'intelligence générale tels que le Corpus d'Abstraction et de Raisonnement (ARC). Dans cet article, nous abordons ARC comme un problème de programmation par exemples et introduisons une méthode novatrice et évolutive d'auto-amélioration des modèles de langage appelée Itération de Code (CodeIt). Notre méthode alterne entre 1) l'échantillonnage de programmes et le re-étiquetage rétrospectif, et 2) l'apprentissage par relecture priorisée des expériences. En re-étiquetant l'objectif d'un épisode (c'est-à-dire la sortie du programme cible pour une entrée donnée) avec la sortie réalisée produite par le programme échantillonné, notre méthode traite efficacement l'extrême rareté des récompenses dans la synthèse de programmes. En appliquant CodeIt au jeu de données ARC, nous démontrons que la relecture rétrospective priorisée, combinée à un pré-entraînement et à une augmentation des données, permet une généralisation inter-tâches réussie. CodeIt est la première approche neuro-symbolique qui s'adapte à l'ensemble du jeu de données d'évaluation ARC. Notre méthode résout 15 % des tâches d'évaluation ARC, atteignant des performances de pointe et surpassant les bases de référence neuronales et symboliques existantes.

English

Large language models are increasingly solving tasks that are commonly believed to require human-level reasoning ability. However, these models still perform very poorly on benchmarks of general intelligence such as the Abstraction and Reasoning Corpus (ARC). In this paper, we approach ARC as a programming-by-examples problem, and introduce a novel and scalable method for language model self-improvement called Code Iteration (CodeIt). Our method iterates between 1) program sampling and hindsight relabeling, and 2) learning from prioritized experience replay. By relabeling the goal of an episode (i.e., the target program output given input) to the realized output produced by the sampled program, our method effectively deals with the extreme sparsity of rewards in program synthesis. Applying CodeIt to the ARC dataset, we demonstrate that prioritized hindsight replay, along with pre-training and data-augmentation, leads to successful inter-task generalization. CodeIt is the first neuro-symbolic approach that scales to the full ARC evaluation dataset. Our method solves 15% of ARC evaluation tasks, achieving state-of-the-art performance and outperforming existing neural and symbolic baselines.

CodeIt : Modèles de langage auto-améliorés avec relecture priorisée a posteriori

CodeIt: Self-Improving Language Models with Prioritized Hindsight Replay

papers.abstract

Support