ChatPaper.aiChatPaper

Возникающие свойства с повторяющимися примерами

Emergent properties with repeated examples

October 9, 2024
Авторы: François Charton, Julia Kempe
cs.AI

Аннотация

Мы изучаем производительность трансформеров в зависимости от количества повторений обучающих примеров с алгоритмически сгенерированными наборами данных. На трех математических задачах: нахождение наибольшего общего делителя, модульное умножение и собственные значения матрицы, мы показываем, что при фиксированном числе шагов обучения модели, обученные на более маленьких наборах повторяющихся примеров, превосходят модели, обученные на более крупных наборах одноразовых примеров. Мы также демонстрируем, что обучение на двух наборах - повторное использование небольшого случайного подмножества примеров, вместе с обычной выборкой на остальном обучающем наборе - обеспечивает более быстрое обучение и лучшую производительность. Это подчеркивает, что выгоды от повторения могут превзойти выгоды от разнообразия данных. Эти наборы данных и задачи обеспечивают контролируемую среду для прояснения до сих пор плохо понятного взаимодействия между обобщением и запоминанием в глубоком обучении.
English
We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.

Summary

AI-Generated Summary

PDF83November 16, 2024