ChatPaper.aiChatPaper

I-Con: Un Marco Unificador para el Aprendizaje de Representaciones

I-Con: A Unifying Framework for Representation Learning

April 23, 2025
Autores: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI

Resumen

A medida que el campo del aprendizaje de representaciones crece, ha habido una proliferación de diferentes funciones de pérdida para resolver distintas clases de problemas. Introducimos una única ecuación basada en teoría de la información que generaliza una amplia colección de funciones de pérdida modernas en el aprendizaje automático. En particular, presentamos un marco que muestra que varias clases amplias de métodos de aprendizaje automático están minimizando precisamente una divergencia KL integrada entre dos distribuciones condicionales: las representaciones supervisadas y las aprendidas. Esta perspectiva revela una geometría de la información subyacente en tareas como clustering, métodos espectrales, reducción de dimensionalidad, aprendizaje contrastivo y aprendizaje supervisado. Este marco permite el desarrollo de nuevas funciones de pérdida al combinar técnicas exitosas de la literatura. No solo presentamos una amplia variedad de demostraciones, conectando más de 23 enfoques diferentes, sino que también aprovechamos estos resultados teóricos para crear clasificadores de imágenes no supervisados de última generación que logran una mejora del +8% sobre el estado del arte previo en la clasificación no supervisada en ImageNet-1K. También demostramos que I-Con puede utilizarse para derivar métodos de eliminación de sesgos fundamentados que mejoran los aprendices de representaciones contrastivas.
English
As the field of representation learning grows, there has been a proliferation of different loss functions to solve different classes of problems. We introduce a single information-theoretic equation that generalizes a large collection of modern loss functions in machine learning. In particular, we introduce a framework that shows that several broad classes of machine learning methods are precisely minimizing an integrated KL divergence between two conditional distributions: the supervisory and learned representations. This viewpoint exposes a hidden information geometry underlying clustering, spectral methods, dimensionality reduction, contrastive learning, and supervised learning. This framework enables the development of new loss functions by combining successful techniques from across the literature. We not only present a wide array of proofs, connecting over 23 different approaches, but we also leverage these theoretical results to create state-of-the-art unsupervised image classifiers that achieve a +8% improvement over the prior state-of-the-art on unsupervised classification on ImageNet-1K. We also demonstrate that I-Con can be used to derive principled debiasing methods which improve contrastive representation learners.

Summary

AI-Generated Summary

PDF282April 24, 2025