Rótulos Pesados Fora! Destilação de Conjunto de Dados com Clareamento do Espaço de Rótulos.
Heavy Labels Out! Dataset Distillation with Label Space Lightening
August 15, 2024
Autores: Ruonan Yu, Songhua Liu, Zigeng Chen, Jingwen Ye, Xinchao Wang
cs.AI
Resumo
A destilação ou condensação de conjuntos de dados tem como objetivo condensar um conjunto de treinamento em larga escala em um conjunto sintético muito menor, de forma que o desempenho de treinamento dos conjuntos destilados e originais em redes neurais seja semelhante. Embora o número de amostras de treinamento possa ser substancialmente reduzido, os métodos de ponta atuais dependem fortemente de rótulos suaves enormes para alcançar um desempenho satisfatório. Como resultado, o armazenamento necessário pode ser comparável até mesmo aos conjuntos de dados originais, especialmente para conjuntos em larga escala. Para resolver esse problema, em vez de armazenar esses rótulos pesados, propomos um novo framework de iluminação de rótulos denominado HeLlO, com o objetivo de projetores eficazes de imagem-para-rótulo, com os quais os rótulos sintéticos podem ser gerados diretamente online a partir de imagens sintéticas. Especificamente, para construir tais projetores, aproveitamos o conhecimento prévio em modelos de fundação de código aberto, por exemplo, CLIP, e introduzimos uma estratégia de ajuste fino semelhante ao LoRA para mitigar a diferença entre as distribuições pré-treinadas e de destino, de modo que os modelos originais para geração de rótulos suaves possam ser destilados em um grupo de matrizes de baixa classificação. Além disso, um método eficaz de otimização de imagem é proposto para mitigar ainda mais o erro potencial entre os geradores de rótulos originais e destilados. Experimentos extensivos demonstram que, com apenas cerca de 0,003% do armazenamento original necessário para um conjunto completo de rótulos suaves, alcançamos um desempenho comparável aos métodos de destilação de conjuntos de dados de ponta atuais em conjuntos de dados em larga escala. Nosso código estará disponível.
English
Dataset distillation or condensation aims to condense a large-scale training
dataset into a much smaller synthetic one such that the training performance of
distilled and original sets on neural networks are similar. Although the number
of training samples can be reduced substantially, current state-of-the-art
methods heavily rely on enormous soft labels to achieve satisfactory
performance. As a result, the required storage can be comparable even to
original datasets, especially for large-scale ones. To solve this problem,
instead of storing these heavy labels, we propose a novel label-lightening
framework termed HeLlO aiming at effective image-to-label projectors, with
which synthetic labels can be directly generated online from synthetic images.
Specifically, to construct such projectors, we leverage prior knowledge in
open-source foundation models, e.g., CLIP, and introduce a LoRA-like
fine-tuning strategy to mitigate the gap between pre-trained and target
distributions, so that original models for soft-label generation can be
distilled into a group of low-rank matrices. Moreover, an effective image
optimization method is proposed to further mitigate the potential error between
the original and distilled label generators. Extensive experiments demonstrate
that with only about 0.003% of the original storage required for a complete set
of soft labels, we achieve comparable performance to current state-of-the-art
dataset distillation methods on large-scale datasets. Our code will be
available.Summary
AI-Generated Summary