Compresser ou ne pas compresser - Apprentissage auto-supervisé et théorie de l'information : une revue
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review
April 19, 2023
Auteurs: Ravid Shwartz-Ziv, Yann LeCun
cs.AI
Résumé
Les réseaux de neurones profonds ont démontré des performances remarquables dans les tâches d'apprentissage supervisé, mais nécessitent de grandes quantités de données étiquetées. L'apprentissage auto-supervisé propose un paradigme alternatif, permettant au modèle d'apprendre à partir de données sans étiquettes explicites. La théorie de l'information a joué un rôle essentiel dans la compréhension et l'optimisation des réseaux de neurones profonds. Plus précisément, le principe du goulot d'étranglement informationnel a été appliqué pour optimiser le compromis entre compression et préservation des informations pertinentes dans des contextes supervisés. Cependant, l'objectif informationnel optimal dans l'apprentissage auto-supervisé reste incertain. Dans cet article, nous passons en revue diverses approches de l'apprentissage auto-supervisé sous l'angle de la théorie de l'information et présentons un cadre unifié qui formalise le problème d'apprentissage informationnel auto-supervisé. Nous intégrons les recherches existantes dans un cadre cohérent, examinons les méthodes auto-supervisées récentes et identifions les opportunités et les défis de recherche. De plus, nous discutons de la mesure empirique des quantités informationnelles et de leurs estimateurs. Cet article offre une revue complète de l'intersection entre la théorie de l'information, l'apprentissage auto-supervisé et les réseaux de neurones profonds.
English
Deep neural networks have demonstrated remarkable performance in supervised
learning tasks but require large amounts of labeled data. Self-supervised
learning offers an alternative paradigm, enabling the model to learn from data
without explicit labels. Information theory has been instrumental in
understanding and optimizing deep neural networks. Specifically, the
information bottleneck principle has been applied to optimize the trade-off
between compression and relevant information preservation in supervised
settings. However, the optimal information objective in self-supervised
learning remains unclear. In this paper, we review various approaches to
self-supervised learning from an information-theoretic standpoint and present a
unified framework that formalizes the self-supervised information-theoretic
learning problem. We integrate existing research into a coherent framework,
examine recent self-supervised methods, and identify research opportunities and
challenges. Moreover, we discuss empirical measurement of information-theoretic
quantities and their estimators. This paper offers a comprehensive review of
the intersection between information theory, self-supervised learning, and deep
neural networks.