Fondamenti e Miglioramento dell'Informatività e Utilità nella Distillazione di Dataset
Grounding and Enhancing Informativeness and Utility in Dataset Distillation
January 29, 2026
Autori: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI
Abstract
La distillazione di dataset (DD) mira a creare un dataset compatto a partire da un ampio dataset del mondo reale. Sebbene i metodi recenti si basino spesso su approcci euristici per bilanciare efficienza e qualità, la relazione fondamentale tra dati originali e sintetici rimane poco esplorata. Questo articolo rilegge la distillazione di dataset basata sulla distillazione della conoscenza all'interno di un solido quadro teorico. Introduciamo i concetti di Informatività e Utilità, che catturano rispettivamente le informazioni cruciali all'interno di un campione e i campioni essenziali nel set di addestramento. Basandoci su questi principi, definiamo matematicamente la distillazione ottimale del dataset. Presentiamo quindi InfoUtil, un framework che bilancia informatività e utilità nella sintesi del dataset distillato. InfoUtil incorpora due componenti chiave: (1) la massimizzazione dell'informatività di tipo teoria dei giochi utilizzando l'attribuzione del Valore di Shapley per estrarre informazioni chiave dai campioni, e (2) la massimizzazione dell'utilità basata su principi fondati selezionando campioni globalmente influenti in base alla Norma del Gradiente. Questi componenti garantiscono che il dataset distillato sia sia informativo che ottimizzato in termini di utilità. Gli esperimenti dimostrano che il nostro metodo raggiunge un miglioramento delle prestazioni del 6,1% rispetto al precedente approccio allo stato dell'arte sul dataset ImageNet-1K utilizzando ResNet-18.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.