ChatPaper.aiChatPaper

Proprietà emergenti con esempi ripetuti

Emergent properties with repeated examples

October 9, 2024
Autori: François Charton, Julia Kempe
cs.AI

Abstract

Studiamo le prestazioni dei trasformatori in funzione del numero di ripetizioni degli esempi di addestramento con set di dati generati in modo algoritmico. Su tre problemi matematici: il massimo comune divisore, la moltiplicazione modulare e gli autovalori delle matrici, dimostriamo che per un numero fisso di passaggi di addestramento, i modelli addestrati su insiemi più piccoli di esempi ripetuti superano quelli addestrati su insiemi più grandi di esempi monouso. Dimostriamo inoltre che l'addestramento a due insiemi - l'uso ripetuto di un piccolo sottoinsieme casuale di esempi, insieme a un campionamento normale sul resto dell'insieme di addestramento - permette un apprendimento più veloce e prestazioni migliori. Questo sottolinea che i benefici della ripetizione possono superare quelli della diversità dei dati. Questi set di dati e problemi forniscono un contesto controllato per far luce sull'interazione ancora poco compresa tra generalizzazione e memorizzazione nell'apprendimento profondo.
English
We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.
PDF83November 16, 2024