I-Con : Un cadre unificateur pour l'apprentissage de représentations
I-Con: A Unifying Framework for Representation Learning
April 23, 2025
Auteurs: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI
Résumé
Alors que le domaine de l'apprentissage de représentations se développe, on observe une prolifération de différentes fonctions de perte pour résoudre diverses classes de problèmes. Nous introduisons une équation unique basée sur la théorie de l'information qui généralise une grande collection de fonctions de perte modernes en apprentissage automatique. Plus précisément, nous présentons un cadre qui montre que plusieurs grandes classes de méthodes d'apprentissage automatique minimisent précisément une divergence de Kullback-Leibler intégrée entre deux distributions conditionnelles : les représentations supervisées et apprises. Cette perspective révèle une géométrie de l'information sous-jacente à des techniques telles que le clustering, les méthodes spectrales, la réduction de dimension, l'apprentissage contrastif et l'apprentissage supervisé. Ce cadre permet le développement de nouvelles fonctions de perte en combinant des techniques réussies issues de la littérature. Nous présentons non seulement une large gamme de preuves, reliant plus de 23 approches différentes, mais nous exploitons également ces résultats théoriques pour créer des classificateurs d'images non supervisés de pointe qui améliorent de +8 % l'état de l'art précédent en classification non supervisée sur ImageNet-1K. Nous démontrons également que I-Con peut être utilisé pour dériver des méthodes de débiaisage fondées sur des principes, améliorant ainsi les apprenants de représentations contrastives.
English
As the field of representation learning grows, there has been a proliferation
of different loss functions to solve different classes of problems. We
introduce a single information-theoretic equation that generalizes a large
collection of modern loss functions in machine learning. In particular, we
introduce a framework that shows that several broad classes of machine learning
methods are precisely minimizing an integrated KL divergence between two
conditional distributions: the supervisory and learned representations. This
viewpoint exposes a hidden information geometry underlying clustering, spectral
methods, dimensionality reduction, contrastive learning, and supervised
learning. This framework enables the development of new loss functions by
combining successful techniques from across the literature. We not only present
a wide array of proofs, connecting over 23 different approaches, but we also
leverage these theoretical results to create state-of-the-art unsupervised
image classifiers that achieve a +8% improvement over the prior
state-of-the-art on unsupervised classification on ImageNet-1K. We also
demonstrate that I-Con can be used to derive principled debiasing methods which
improve contrastive representation learners.Summary
AI-Generated Summary