Proprietà emergenti con esempi ripetuti
Emergent properties with repeated examples
October 9, 2024
Autori: François Charton, Julia Kempe
cs.AI
Abstract
Studiamo le prestazioni dei trasformatori in funzione del numero di ripetizioni degli esempi di addestramento con set di dati generati in modo algoritmico. Su tre problemi matematici: il massimo comune divisore, la moltiplicazione modulare e gli autovalori delle matrici, dimostriamo che per un numero fisso di passaggi di addestramento, i modelli addestrati su insiemi più piccoli di esempi ripetuti superano quelli addestrati su insiemi più grandi di esempi monouso. Dimostriamo inoltre che l'addestramento a due insiemi - l'uso ripetuto di un piccolo sottoinsieme casuale di esempi, insieme a un campionamento normale sul resto dell'insieme di addestramento - permette un apprendimento più veloce e prestazioni migliori. Questo sottolinea che i benefici della ripetizione possono superare quelli della diversità dei dati. Questi set di dati e problemi forniscono un contesto controllato per far luce sull'interazione ancora poco compresa tra generalizzazione e memorizzazione nell'apprendimento profondo.
English
We study the performance of transformers as a function of the number of
repetitions of training examples with algorithmically generated datasets. On
three problems of mathematics: the greatest common divisor, modular
multiplication, and matrix eigenvalues, we show that for a fixed number of
training steps, models trained on smaller sets of repeated examples outperform
models trained on larger sets of single-use examples. We also demonstrate that
two-set training - repeated use of a small random subset of examples, along
normal sampling on the rest of the training set - provides for faster learning
and better performance. This highlights that the benefits of repetition can
outweigh those of data diversity. These datasets and problems provide a
controlled setting to shed light on the still poorly understood interplay
between generalization and memorization in deep learning.