Propiedades emergentes con ejemplos repetidos
Emergent properties with repeated examples
October 9, 2024
Autores: François Charton, Julia Kempe
cs.AI
Resumen
Estudiamos el rendimiento de los transformadores en función del número de repeticiones de ejemplos de entrenamiento con conjuntos de datos generados algorítmicamente. En tres problemas matemáticos: el máximo común divisor, la multiplicación modular y los autovalores de matrices, demostramos que para un número fijo de pasos de entrenamiento, los modelos entrenados con conjuntos más pequeños de ejemplos repetidos superan a los modelos entrenados con conjuntos más grandes de ejemplos de un solo uso. También demostramos que el entrenamiento con dos conjuntos, es decir, el uso repetido de un pequeño subconjunto aleatorio de ejemplos junto con un muestreo normal en el resto del conjunto de entrenamiento, permite un aprendizaje más rápido y un mejor rendimiento. Esto resalta que los beneficios de la repetición pueden superar a los de la diversidad de datos. Estos conjuntos de datos y problemas proporcionan un entorno controlado para arrojar luz sobre la interacción aún poco comprendida entre la generalización y la memorización en el aprendizaje profundo.
English
We study the performance of transformers as a function of the number of
repetitions of training examples with algorithmically generated datasets. On
three problems of mathematics: the greatest common divisor, modular
multiplication, and matrix eigenvalues, we show that for a fixed number of
training steps, models trained on smaller sets of repeated examples outperform
models trained on larger sets of single-use examples. We also demonstrate that
two-set training - repeated use of a small random subset of examples, along
normal sampling on the rest of the training set - provides for faster learning
and better performance. This highlights that the benefits of repetition can
outweigh those of data diversity. These datasets and problems provide a
controlled setting to shed light on the still poorly understood interplay
between generalization and memorization in deep learning.Summary
AI-Generated Summary