I-Con: Унифицирующая структура для обучения представлениям
I-Con: A Unifying Framework for Representation Learning
April 23, 2025
Авторы: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI
Аннотация
По мере развития области обучения представлений наблюдается рост разнообразия функций потерь, предназначенных для решения различных классов задач. Мы представляем единое уравнение, основанное на теории информации, которое обобщает большое количество современных функций потерь в машинном обучении. В частности, мы предлагаем концептуальную основу, которая показывает, что несколько широких классов методов машинного обучения минимизируют интегрированную дивергенцию Кульбака-Лейблера между двумя условными распределениями: целевыми и обучаемыми представлениями. Этот подход раскрывает скрытую информационную геометрию, лежащую в основе кластеризации, спектральных методов, снижения размерности, контрастивного обучения и обучения с учителем. Данная концепция позволяет разрабатывать новые функции потерь, комбинируя успешные методы из различных источников. Мы не только представляем широкий спектр доказательств, связывающих более 23 различных подходов, но и используем эти теоретические результаты для создания современных классификаторов изображений без учителя, которые демонстрируют улучшение на +8% по сравнению с предыдущими лучшими результатами в задаче классификации без учителя на ImageNet-1K. Мы также показываем, что I-Con может быть использован для разработки принципиальных методов устранения смещений, которые улучшают контрастивные модели обучения представлений.
English
As the field of representation learning grows, there has been a proliferation
of different loss functions to solve different classes of problems. We
introduce a single information-theoretic equation that generalizes a large
collection of modern loss functions in machine learning. In particular, we
introduce a framework that shows that several broad classes of machine learning
methods are precisely minimizing an integrated KL divergence between two
conditional distributions: the supervisory and learned representations. This
viewpoint exposes a hidden information geometry underlying clustering, spectral
methods, dimensionality reduction, contrastive learning, and supervised
learning. This framework enables the development of new loss functions by
combining successful techniques from across the literature. We not only present
a wide array of proofs, connecting over 23 different approaches, but we also
leverage these theoretical results to create state-of-the-art unsupervised
image classifiers that achieve a +8% improvement over the prior
state-of-the-art on unsupervised classification on ImageNet-1K. We also
demonstrate that I-Con can be used to derive principled debiasing methods which
improve contrastive representation learners.Summary
AI-Generated Summary