ChatPaper.aiChatPaper

Farzi Data: Destilación de Datos Autoregresivos

Farzi Data: Autoregressive Data Distillation

October 15, 2023
Autores: Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng, Julian McAuley
cs.AI

Resumen

Estudiamos la destilación de datos para tareas de aprendizaje automático auto-regresivas, donde la entrada y la salida tienen una estructura causal estricta de izquierda a derecha. Más específicamente, proponemos Farzi, que resume un conjunto de datos de secuencias de eventos en un pequeño número de secuencias sintéticas —Datos Farzi—, las cuales están optimizadas para mantener (si no mejorar) el rendimiento del modelo en comparación con el entrenamiento en el conjunto de datos completo. Internamente, Farzi realiza una destilación de datos eficiente en memoria mediante (i) la derivación de una diferenciación en modo inverso eficiente del optimizador Adam aprovechando Productos Hessiano-Vector; y (ii) la factorización del espacio de eventos discreto de alta dimensión en un espacio latente que promueve de manera comprobable la regularización implícita. Empíricamente, para tareas de recomendación secuencial y modelado de lenguaje, logramos alcanzar entre el 98% y el 120% del rendimiento con datos completos al entrenar modelos de última generación con Datos Farzi que representan tan solo el 0.1% del conjunto de datos original. Es notable que la capacidad de entrenar modelos mejores con significativamente menos datos arroja luz sobre el diseño de futuros modelos auto-regresivos de gran escala y abre nuevas oportunidades para escalar aún más los tamaños de los modelos y los datos.
English
We study data distillation for auto-regressive machine learning tasks, where the input and output have a strict left-to-right causal structure. More specifically, we propose Farzi, which summarizes an event sequence dataset into a small number of synthetic sequences -- Farzi Data -- which are optimized to maintain (if not improve) model performance compared to training on the full dataset. Under the hood, Farzi conducts memory-efficient data distillation by (i) deriving efficient reverse-mode differentiation of the Adam optimizer by leveraging Hessian-Vector Products; and (ii) factorizing the high-dimensional discrete event-space into a latent-space which provably promotes implicit regularization. Empirically, for sequential recommendation and language modeling tasks, we are able to achieve 98-120% of downstream full-data performance when training state-of-the-art models on Farzi Data of size as little as 0.1% of the original dataset. Notably, being able to train better models with significantly less data sheds light on the design of future large auto-regressive models, and opens up new opportunities to further scale up model and data sizes.
PDF101December 15, 2024