Farzi Data: Авторегрессивная дистилляция данных
Farzi Data: Autoregressive Data Distillation
October 15, 2023
Авторы: Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng, Julian McAuley
cs.AI
Аннотация
Мы исследуем дистилляцию данных для задач авторегрессивного машинного обучения, где входные и выходные данные имеют строгую причинно-следственную структуру слева направо. Более конкретно, мы предлагаем метод Farzi, который суммирует набор данных последовательностей событий в небольшое количество синтетических последовательностей — Farzi Data, которые оптимизированы для сохранения (или даже улучшения) производительности модели по сравнению с обучением на полном наборе данных. В основе Farzi лежит эффективная с точки зрения использования памяти дистилляция данных, которая достигается за счет (i) выведения эффективного обратного дифференцирования для оптимизатора Adam с использованием произведений Гессе-вектор; и (ii) факторизации высокоразмерного дискретного пространства событий в латентное пространство, которое доказанно способствует неявной регуляризации. Экспериментально, для задач последовательных рекомендаций и языкового моделирования, мы смогли достичь 98-120% производительности моделей, обученных на полных данных, при обучении современных моделей на Farzi Data, объем которых составляет всего 0,1% от исходного набора данных. Примечательно, что возможность обучать более качественные модели с использованием значительно меньшего объема данных проливает свет на проектирование будущих крупных авторегрессивных моделей и открывает новые возможности для дальнейшего масштабирования размеров моделей и данных.
English
We study data distillation for auto-regressive machine learning tasks, where
the input and output have a strict left-to-right causal structure. More
specifically, we propose Farzi, which summarizes an event sequence dataset into
a small number of synthetic sequences -- Farzi Data -- which are optimized to
maintain (if not improve) model performance compared to training on the full
dataset. Under the hood, Farzi conducts memory-efficient data distillation by
(i) deriving efficient reverse-mode differentiation of the Adam optimizer by
leveraging Hessian-Vector Products; and (ii) factorizing the high-dimensional
discrete event-space into a latent-space which provably promotes implicit
regularization. Empirically, for sequential recommendation and language
modeling tasks, we are able to achieve 98-120% of downstream full-data
performance when training state-of-the-art models on Farzi Data of size as
little as 0.1% of the original dataset. Notably, being able to train better
models with significantly less data sheds light on the design of future large
auto-regressive models, and opens up new opportunities to further scale up
model and data sizes.