Emergente Eigenschaften mit wiederholten Beispielen
Emergent properties with repeated examples
October 9, 2024
Autoren: François Charton, Julia Kempe
cs.AI
Zusammenfassung
Wir untersuchen die Leistung von Transformatoren in Abhängigkeit von der Anzahl der Wiederholungen von Trainingsbeispielen mit algorithmisch generierten Datensätzen. Anhand von drei mathematischen Problemen - dem größten gemeinsamen Teiler, der modularen Multiplikation und den Eigenwerten von Matrizen - zeigen wir, dass Modelle, die auf kleineren Sets wiederholter Beispiele trainiert wurden, bei einer festen Anzahl von Trainingsschritten besser abschneiden als Modelle, die auf größeren Sets von einmalig verwendeten Beispielen trainiert wurden. Wir zeigen auch, dass das Training mit zwei Sets - der wiederholten Verwendung eines kleinen zufälligen Teils von Beispielen zusammen mit der normalen Stichprobenahme aus dem Rest des Trainingssets - zu schnellerem Lernen und besserer Leistung führt. Dies verdeutlicht, dass die Vorteile der Wiederholung die der Datenvielfalt überwiegen können. Diese Datensätze und Probleme bieten eine kontrollierte Umgebung, um das noch immer schlecht verstandene Zusammenspiel von Verallgemeinerung und Memorierung im Deep Learning zu beleuchten.
English
We study the performance of transformers as a function of the number of
repetitions of training examples with algorithmically generated datasets. On
three problems of mathematics: the greatest common divisor, modular
multiplication, and matrix eigenvalues, we show that for a fixed number of
training steps, models trained on smaller sets of repeated examples outperform
models trained on larger sets of single-use examples. We also demonstrate that
two-set training - repeated use of a small random subset of examples, along
normal sampling on the rest of the training set - provides for faster learning
and better performance. This highlights that the benefits of repetition can
outweigh those of data diversity. These datasets and problems provide a
controlled setting to shed light on the still poorly understood interplay
between generalization and memorization in deep learning.Summary
AI-Generated Summary