ChatPaper.aiChatPaper

Opkomende eigenschappen met herhaalde voorbeelden.

Emergent properties with repeated examples

October 9, 2024
Auteurs: François Charton, Julia Kempe
cs.AI

Samenvatting

We bestuderen de prestaties van transformers als een functie van het aantal herhalingen van trainingsvoorbeelden met algorithmisch gegenereerde datasets. Op drie wiskundige problemen: de grootste gemene deler, modulaire vermenigvuldiging en matrixeigenwaarden, tonen we aan dat modellen die zijn getraind op kleinere sets herhaalde voorbeelden beter presteren dan modellen die zijn getraind op grotere sets eenmalig gebruikte voorbeelden. We tonen ook aan dat tweesetentraining - herhaald gebruik van een kleine willekeurige subset van voorbeelden, samen met normale bemonstering van de rest van de trainingsset - zorgt voor sneller leren en betere prestaties. Dit benadrukt dat de voordelen van herhaling kunnen opwegen tegen die van gegevensdiversiteit. Deze datasets en problemen bieden een gecontroleerde omgeving om meer inzicht te krijgen in de nog steeds slecht begrepen wisselwerking tussen generalisatie en memorisatie in diep leren.
English
We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.

Summary

AI-Generated Summary

PDF83November 16, 2024