ChatPaper.aiChatPaper

Fundamentación y Mejora de la Informatividad y Utilidad en la Destilación de Conjuntos de Datos

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

January 29, 2026
Autores: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI

Resumen

La Destilación de Conjuntos de Datos (DD) busca crear un conjunto de datos compacto a partir de uno grande del mundo real. Si bien los métodos recientes a menudo se basan en enfoques heurísticos para equilibrar la eficiencia y la calidad, la relación fundamental entre los datos originales y los sintéticos sigue estando poco explorada. Este artículo revisita la destilación de conjuntos de datos basada en destilación de conocimiento dentro de un marco teórico sólido. Introducimos los conceptos de Informatividad y Utilidad, que capturan información crucial dentro de una muestra y muestras esenciales en el conjunto de entrenamiento, respectivamente. Basándonos en estos principios, definimos matemáticamente la destilación óptima de conjuntos de datos. Luego presentamos InfoUtil, un marco que equilibra la informatividad y la utilidad en la síntesis del conjunto de datos destilado. InfoUtil incorpora dos componentes clave: (1) maximización de la informatividad con teoría de juegos utilizando la atribución del Valor de Shapley para extraer información clave de las muestras, y (2) maximización de la utilidad con bases sólidas mediante la selección de muestras globalmente influyentes basada en la Norma del Gradiente. Estos componentes garantizan que el conjunto de datos destilado sea tanto informativo como optimizado en utilidad. Los experimentos demuestran que nuestro método logra una mejora del 6.1% en el rendimiento respecto al mejor enfoque anterior en el conjunto de datos ImageNet-1K utilizando ResNet-18.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.
PDF154February 7, 2026