ChatPaper.aiChatPaper

Propriétés émergentes avec des exemples répétés

Emergent properties with repeated examples

October 9, 2024
Auteurs: François Charton, Julia Kempe
cs.AI

Résumé

Nous étudions les performances des transformeurs en fonction du nombre de répétitions des exemples d'entraînement avec des ensembles de données générés de manière algorithmique. Sur trois problèmes de mathématiques : le plus grand commun diviseur, la multiplication modulaire et les valeurs propres de matrices, nous montrons que pour un nombre fixe d'étapes d'entraînement, les modèles entraînés sur de plus petits ensembles d'exemples répétés surpassent les modèles entraînés sur de plus grands ensembles d'exemples à usage unique. Nous démontrons également que l'entraînement à deux ensembles - l'utilisation répétée d'un petit sous-ensemble aléatoire d'exemples, ainsi qu'un échantillonnage normal sur le reste de l'ensemble d'entraînement - permet un apprentissage plus rapide et de meilleures performances. Cela met en lumière que les avantages de la répétition peuvent l'emporter sur ceux de la diversité des données. Ces ensembles de données et problèmes offrent un cadre contrôlé pour éclairer l'interaction encore mal comprise entre la généralisation et la mémorisation dans l'apprentissage profond.
English
We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.
PDF83November 16, 2024