I-Con: Un Marco Unificador para el Aprendizaje de Representaciones
I-Con: A Unifying Framework for Representation Learning
April 23, 2025
Autores: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI
Resumen
A medida que el campo del aprendizaje de representaciones crece, ha habido una proliferación de diferentes funciones de pérdida para resolver distintas clases de problemas. Introducimos una única ecuación basada en teoría de la información que generaliza una amplia colección de funciones de pérdida modernas en el aprendizaje automático. En particular, presentamos un marco que muestra que varias clases amplias de métodos de aprendizaje automático están minimizando precisamente una divergencia KL integrada entre dos distribuciones condicionales: las representaciones supervisadas y las aprendidas. Esta perspectiva revela una geometría de la información subyacente en tareas como clustering, métodos espectrales, reducción de dimensionalidad, aprendizaje contrastivo y aprendizaje supervisado. Este marco permite el desarrollo de nuevas funciones de pérdida al combinar técnicas exitosas de la literatura. No solo presentamos una amplia variedad de demostraciones, conectando más de 23 enfoques diferentes, sino que también aprovechamos estos resultados teóricos para crear clasificadores de imágenes no supervisados de última generación que logran una mejora del +8% sobre el estado del arte previo en la clasificación no supervisada en ImageNet-1K. También demostramos que I-Con puede utilizarse para derivar métodos de eliminación de sesgos fundamentados que mejoran los aprendices de representaciones contrastivas.
English
As the field of representation learning grows, there has been a proliferation
of different loss functions to solve different classes of problems. We
introduce a single information-theoretic equation that generalizes a large
collection of modern loss functions in machine learning. In particular, we
introduce a framework that shows that several broad classes of machine learning
methods are precisely minimizing an integrated KL divergence between two
conditional distributions: the supervisory and learned representations. This
viewpoint exposes a hidden information geometry underlying clustering, spectral
methods, dimensionality reduction, contrastive learning, and supervised
learning. This framework enables the development of new loss functions by
combining successful techniques from across the literature. We not only present
a wide array of proofs, connecting over 23 different approaches, but we also
leverage these theoretical results to create state-of-the-art unsupervised
image classifiers that achieve a +8% improvement over the prior
state-of-the-art on unsupervised classification on ImageNet-1K. We also
demonstrate that I-Con can be used to derive principled debiasing methods which
improve contrastive representation learners.Summary
AI-Generated Summary