Farzi Data: Distilação de Dados Autoregressiva
Farzi Data: Autoregressive Data Distillation
October 15, 2023
Autores: Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng, Julian McAuley
cs.AI
Resumo
Estudamos a destilação de dados para tarefas de aprendizado de máquina auto-regressivas, onde a entrada e a saída possuem uma estrutura causal estritamente da esquerda para a direita. Mais especificamente, propomos o Farzi, que resume um conjunto de dados de sequência de eventos em um pequeno número de sequências sintéticas -- os Dados Farzi -- que são otimizados para manter (se não melhorar) o desempenho do modelo em comparação com o treinamento no conjunto de dados completo. Nos bastidores, o Farzi realiza a destilação de dados com eficiência de memória por meio de (i) derivação eficiente da diferenciação em modo reverso do otimizador Adam, aproveitando Produtos Hessiano-Vetor; e (ii) fatorização do espaço de eventos discretos de alta dimensionalidade em um espaço latente que comprovadamente promove regularização implícita. Empiricamente, para tarefas de recomendação sequencial e modelagem de linguagem, conseguimos alcançar 98-120% do desempenho de dados completos em tarefas subsequentes ao treinar modelos de última geração em Dados Farzi com tamanho de apenas 0,1% do conjunto de dados original. Notavelmente, a capacidade de treinar modelos melhores com significativamente menos dados lança luz sobre o design de futuros modelos auto-regressivos de grande escala e abre novas oportunidades para expandir ainda mais o tamanho dos modelos e dos dados.
English
We study data distillation for auto-regressive machine learning tasks, where
the input and output have a strict left-to-right causal structure. More
specifically, we propose Farzi, which summarizes an event sequence dataset into
a small number of synthetic sequences -- Farzi Data -- which are optimized to
maintain (if not improve) model performance compared to training on the full
dataset. Under the hood, Farzi conducts memory-efficient data distillation by
(i) deriving efficient reverse-mode differentiation of the Adam optimizer by
leveraging Hessian-Vector Products; and (ii) factorizing the high-dimensional
discrete event-space into a latent-space which provably promotes implicit
regularization. Empirically, for sequential recommendation and language
modeling tasks, we are able to achieve 98-120% of downstream full-data
performance when training state-of-the-art models on Farzi Data of size as
little as 0.1% of the original dataset. Notably, being able to train better
models with significantly less data sheds light on the design of future large
auto-regressive models, and opens up new opportunities to further scale up
model and data sizes.