ChatPaper.aiChatPaper

Заземление и повышение информативности и полезности при дистилляции наборов данных

Grounding and Enhancing Informativeness and Utility in Dataset Distillation

January 29, 2026
Авторы: Shaobo Wang, Yantai Yang, Guo Chen, Peiru Li, Kaixin Li, Yufa Zhou, Zhaorun Chen, Linfeng Zhang
cs.AI

Аннотация

Дистилляция наборов данных (DD) направлена на создание компактного набора данных из большого набора реальных данных. В то время как современные методы часто опираются на эвристические подходы для балансировки эффективности и качества, фундаментальная взаимосвязь между исходными и синтетическими данными остается недостаточно изученной. В данной статье переосмысливается дистилляция наборов данных на основе дистилляции знаний в рамках строгой теоретической основы. Мы вводим концепции Информативности и Полезности, которые соответственно отражают ключевую информацию внутри отдельного примера и наиболее важные примеры в обучающем наборе. Основываясь на этих принципах, мы математически определяем оптимальную дистилляцию набора данных. Затем мы представляем InfoUtil — фреймворк, который балансирует информативность и полезность при синтезе дистиллированного набора данных. InfoUtil включает два ключевых компонента: (1) максимизацию информативности на основе теории игр с использованием атрибуции по значению Шепли для извлечения ключевой информации из образцов и (2) принципиальную максимизацию полезности путем отбора глобально влиятельных образцов на основе нормы градиента. Эти компоненты гарантируют, что дистиллированный набор данных является одновременно информативным и оптимизированным по полезности. Эксперименты показывают, что наш метод обеспечивает повышение производительности на 6,1% по сравнению с предыдущим передовым подходом на наборе данных ImageNet-1K с использованием ResNet-18.
English
Dataset Distillation (DD) seeks to create a compact dataset from a large, real-world dataset. While recent methods often rely on heuristic approaches to balance efficiency and quality, the fundamental relationship between original and synthetic data remains underexplored. This paper revisits knowledge distillation-based dataset distillation within a solid theoretical framework. We introduce the concepts of Informativeness and Utility, capturing crucial information within a sample and essential samples in the training set, respectively. Building on these principles, we define optimal dataset distillation mathematically. We then present InfoUtil, a framework that balances informativeness and utility in synthesizing the distilled dataset. InfoUtil incorporates two key components: (1) game-theoretic informativeness maximization using Shapley Value attribution to extract key information from samples, and (2) principled utility maximization by selecting globally influential samples based on Gradient Norm. These components ensure that the distilled dataset is both informative and utility-optimized. Experiments demonstrate that our method achieves a 6.1\% performance improvement over the previous state-of-the-art approach on ImageNet-1K dataset using ResNet-18.
PDF153February 7, 2026