ChatPaper.aiChatPaper

Fundamentação e Aprimoramento da Informatividade e Utilidade na Destilação de Conjuntos de Dados

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

January 29, 2026
Autores: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI

Resumo

A Destilação de Conjuntos de Dados (DD) visa criar um conjunto de dados compacto a partir de um grande conjunto de dados do mundo real. Embora os métodos recentes frequentemente dependam de abordagens heurísticas para equilibrar eficiência e qualidade, a relação fundamental entre os dados originais e os dados sintéticos permanece pouco explorada. Este artigo revisita a destilação de conjuntos de dados baseada em destilação de conhecimento dentro de uma estrutura teórica sólida. Introduzimos os conceitos de Informatividade e Utilidade, capturando informações cruciais dentro de uma amostra e amostras essenciais no conjunto de treinamento, respectivamente. Com base nesses princípios, definimos matematicamente a destilação ótima de conjuntos de dados. Em seguida, apresentamos o InfoUtil, uma estrutura que equilibra informatividade e utilidade na síntese do conjunto de dados destilado. O InfoUtil incorpora dois componentes principais: (1) maximização da informatividade baseada em teoria dos jogos, usando a atribuição do Valor de Shapley para extrair informações-chave das amostras, e (2) maximização de utilidade fundamentada pela seleção de amostras globalmente influentes com base na Norma do Gradiente. Esses componentes garantem que o conjunto de dados destilado seja ao mesmo tempo informativo e otimizado para utilidade. Experimentos demonstram que nosso método alcança uma melhoria de desempenho de 6,1% em relação à abordagem anterior state-of-the-art no conjunto de dados ImageNet-1K usando ResNet-18.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.
PDF154February 7, 2026