Emergente Eigenschaften mit wiederholten Beispielen

papers.abstract

Wir untersuchen die Leistung von Transformatoren in Abhängigkeit von der Anzahl der Wiederholungen von Trainingsbeispielen mit algorithmisch generierten Datensätzen. Anhand von drei mathematischen Problemen - dem größten gemeinsamen Teiler, der modularen Multiplikation und den Eigenwerten von Matrizen - zeigen wir, dass Modelle, die auf kleineren Sets wiederholter Beispiele trainiert wurden, bei einer festen Anzahl von Trainingsschritten besser abschneiden als Modelle, die auf größeren Sets von einmalig verwendeten Beispielen trainiert wurden. Wir zeigen auch, dass das Training mit zwei Sets - der wiederholten Verwendung eines kleinen zufälligen Teils von Beispielen zusammen mit der normalen Stichprobenahme aus dem Rest des Trainingssets - zu schnellerem Lernen und besserer Leistung führt. Dies verdeutlicht, dass die Vorteile der Wiederholung die der Datenvielfalt überwiegen können. Diese Datensätze und Probleme bieten eine kontrollierte Umgebung, um das noch immer schlecht verstandene Zusammenspiel von Verallgemeinerung und Memorierung im Deep Learning zu beleuchten.

English

We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.

Emergente Eigenschaften mit wiederholten Beispielen

Emergent properties with repeated examples

papers.abstract

Support