ChatPaper.aiChatPaper

Ancrage et amélioration de l'informativité et de l'utilité dans la distillation de jeux de données

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

January 29, 2026
papers.authors: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI

papers.abstract

La distillation de jeux de données (DD) vise à créer un jeu de données compact à partir d'un grand jeu de données réel. Si les méthodes récentes reposent souvent sur des approches heuristiques pour équilibrer efficacité et qualité, la relation fondamentale entre les données originales et synthétiques reste peu explorée. Cet article revisite la distillation de jeux de données basée sur la distillation de connaissances dans un cadre théorique solide. Nous introduisons les concepts d'Informativité et d'Utilité, capturant respectivement les informations cruciales au sein d'un échantillon et les échantillons essentiels dans l'ensemble d'apprentissage. Sur la base de ces principes, nous définissons mathématiquement la distillation optimale de jeux de données. Nous présentons ensuite InfoUtil, un cadre qui équilibre l'informativité et l'utilité dans la synthèse du jeu de données distillé. InfoUtil intègre deux composants clés : (1) une maximisation de l'informativité par théorie des jeux utilisant l'attribution de la valeur de Shapley pour extraire les informations clés des échantillons, et (2) une maximisation principée de l'utilité en sélectionnant les échantillons globalement influents sur la base de la norme du gradient. Ces composants garantissent que le jeu de données distillé est à la fois informatif et optimisé en utilité. Les expériences démontrent que notre méthode atteint une amélioration de performance de 6,1 % par rapport à l'approche précédente de l'état de l'art sur le jeu de données ImageNet-1K avec ResNet-18.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.
PDF154February 7, 2026