Etichette Pesanti Fuori! Distillazione di Dataset con Alleggerimento dello Spazio delle Etichette
Heavy Labels Out! Dataset Distillation with Label Space Lightening
August 15, 2024
Autori: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI
Abstract
La distillazione o condensazione di dataset mira a comprimere un ampio dataset di addestramento in uno sintetico molto più piccolo, in modo che le prestazioni di addestramento su reti neurali siano simili tra il dataset distillato e quello originale. Sebbene il numero di campioni di addestramento possa essere ridotto in modo significativo, i metodi attuali all'avanguardia si basano pesantemente su etichette soft di grandi dimensioni per ottenere prestazioni soddisfacenti. Di conseguenza, lo spazio di archiviazione richiesto può essere paragonabile a quello dei dataset originali, specialmente per quelli su larga scala. Per risolvere questo problema, invece di memorizzare queste etichette pesanti, proponiamo un nuovo framework di alleggerimento delle etichette denominato HeLlO, che mira a proiettori efficaci da immagine a etichetta, con i quali le etichette sintetiche possono essere generate direttamente online dalle immagini sintetiche. Nello specifico, per costruire tali proiettori, sfruttiamo la conoscenza pregressa nei modelli di base open-source, ad esempio CLIP, e introduciamo una strategia di fine-tuning simile a LoRA per ridurre il divario tra le distribuzioni pre-addestrate e quelle target, in modo che i modelli originali per la generazione di etichette soft possano essere distillati in un gruppo di matrici a basso rango. Inoltre, viene proposto un metodo efficace di ottimizzazione delle immagini per ridurre ulteriormente l'errore potenziale tra i generatori di etichette originali e quelli distillati. Esperimenti estensivi dimostrano che con solo circa lo 0,003% dello spazio di archiviazione originale richiesto per un set completo di etichette soft, otteniamo prestazioni comparabili ai metodi attuali all'avanguardia per la distillazione di dataset su dataset su larga scala. Il nostro codice sarà disponibile.
English
Dataset distillation or condensation aims to condense a large-scale training
dataset into a much smaller synthetic one such that the training performance of
distilled and original sets on neural networks are similar. Although the number
of training samples can be reduced substantially, current state-of-the-art
methods heavily rely on enormous soft labels to achieve satisfactory
performance. As a result, the required storage can be comparable even to
original datasets, especially for large-scale ones. To solve this problem,
instead of storing these heavy labels, we propose a novel label-lightening
framework termed HeLlO aiming at effective image-to-label projectors, with
which synthetic labels can be directly generated online from synthetic images.
Specifically, to construct such projectors, we leverage prior knowledge in
open-source foundation models, e.g., CLIP, and introduce a LoRA-like
fine-tuning strategy to mitigate the gap between pre-trained and target
distributions, so that original models for soft-label generation can be
distilled into a group of low-rank matrices. Moreover, an effective image
optimization method is proposed to further mitigate the potential error between
the original and distilled label generators. Extensive experiments demonstrate
that with only about 0.003% of the original storage required for a complete set
of soft labels, we achieve comparable performance to current state-of-the-art
dataset distillation methods on large-scale datasets. Our code will be
available.