Propriétés émergentes avec des exemples répétés
Emergent properties with repeated examples
October 9, 2024
Auteurs: François Charton, Julia Kempe
cs.AI
Résumé
Nous étudions les performances des transformeurs en fonction du nombre de répétitions des exemples d'entraînement avec des ensembles de données générés de manière algorithmique. Sur trois problèmes de mathématiques : le plus grand commun diviseur, la multiplication modulaire et les valeurs propres de matrices, nous montrons que pour un nombre fixe d'étapes d'entraînement, les modèles entraînés sur de plus petits ensembles d'exemples répétés surpassent les modèles entraînés sur de plus grands ensembles d'exemples à usage unique. Nous démontrons également que l'entraînement à deux ensembles - l'utilisation répétée d'un petit sous-ensemble aléatoire d'exemples, ainsi qu'un échantillonnage normal sur le reste de l'ensemble d'entraînement - permet un apprentissage plus rapide et de meilleures performances. Cela met en lumière que les avantages de la répétition peuvent l'emporter sur ceux de la diversité des données. Ces ensembles de données et problèmes offrent un cadre contrôlé pour éclairer l'interaction encore mal comprise entre la généralisation et la mémorisation dans l'apprentissage profond.
English
We study the performance of transformers as a function of the number of
repetitions of training examples with algorithmically generated datasets. On
three problems of mathematics: the greatest common divisor, modular
multiplication, and matrix eigenvalues, we show that for a fixed number of
training steps, models trained on smaller sets of repeated examples outperform
models trained on larger sets of single-use examples. We also demonstrate that
two-set training - repeated use of a small random subset of examples, along
normal sampling on the rest of the training set - provides for faster learning
and better performance. This highlights that the benefits of repetition can
outweigh those of data diversity. These datasets and problems provide a
controlled setting to shed light on the still poorly understood interplay
between generalization and memorization in deep learning.