ChatPaper.aiChatPaper

I-Con: Um Framework Unificador para Aprendizado de Representação

I-Con: A Unifying Framework for Representation Learning

April 23, 2025
Autores: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI

Resumo

À medida que o campo de aprendizado de representações avança, houve uma proliferação de diferentes funções de perda para resolver diversas classes de problemas. Introduzimos uma única equação baseada na teoria da informação que generaliza uma grande coleção de funções de perda modernas no aprendizado de máquina. Em particular, apresentamos um framework que demonstra que várias classes amplas de métodos de aprendizado de máquina estão minimizando precisamente uma divergência de Kullback-Leibler (KL) integrada entre duas distribuições condicionais: as representações supervisionadas e as aprendidas. Essa perspectiva revela uma geometria da informação subjacente a técnicas de clustering, métodos espectrais, redução de dimensionalidade, aprendizado contrastivo e aprendizado supervisionado. Esse framework possibilita o desenvolvimento de novas funções de perda ao combinar técnicas bem-sucedidas da literatura. Não apenas apresentamos uma ampla gama de provas, conectando mais de 23 abordagens diferentes, mas também utilizamos esses resultados teóricos para criar classificadores de imagens não supervisionados de última geração, que alcançam uma melhoria de +8% em relação ao estado da arte anterior na classificação não supervisionada no ImageNet-1K. Também demonstramos que o I-Con pode ser usado para derivar métodos de debiasing fundamentados, que melhoram aprendizes de representação contrastiva.
English
As the field of representation learning grows, there has been a proliferation of different loss functions to solve different classes of problems. We introduce a single information-theoretic equation that generalizes a large collection of modern loss functions in machine learning. In particular, we introduce a framework that shows that several broad classes of machine learning methods are precisely minimizing an integrated KL divergence between two conditional distributions: the supervisory and learned representations. This viewpoint exposes a hidden information geometry underlying clustering, spectral methods, dimensionality reduction, contrastive learning, and supervised learning. This framework enables the development of new loss functions by combining successful techniques from across the literature. We not only present a wide array of proofs, connecting over 23 different approaches, but we also leverage these theoretical results to create state-of-the-art unsupervised image classifiers that achieve a +8% improvement over the prior state-of-the-art on unsupervised classification on ImageNet-1K. We also demonstrate that I-Con can be used to derive principled debiasing methods which improve contrastive representation learners.

Summary

AI-Generated Summary

PDF282April 24, 2025