I-Con: Un Framework Unificato per l'Apprendimento di Rappresentazioni
I-Con: A Unifying Framework for Representation Learning
April 23, 2025
Autori: Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton
cs.AI
Abstract
Con il progredire del campo dell'apprendimento di rappresentazioni, si è assistito a una proliferazione di diverse funzioni di perdita per risolvere diverse classi di problemi. Introduciamo un'unica equazione di natura teorico-informativa che generalizza una vasta collezione di moderne funzioni di perdita nell'apprendimento automatico. In particolare, presentiamo un framework che dimostra come diverse ampie classi di metodi di apprendimento automatico stiano minimizzando in modo preciso una divergenza KL integrata tra due distribuzioni condizionali: le rappresentazioni supervisionate e quelle apprese. Questa prospettiva rivela una geometria informativa sottostante a tecniche come il clustering, i metodi spettrali, la riduzione della dimensionalità, l'apprendimento contrastivo e l'apprendimento supervisionato. Questo framework consente lo sviluppo di nuove funzioni di perdita combinando tecniche di successo tratte dalla letteratura. Non solo presentiamo una vasta gamma di dimostrazioni, collegando oltre 23 approcci diversi, ma sfruttiamo anche questi risultati teorici per creare classificatori di immagini non supervisionati all'avanguardia che raggiungono un miglioramento dell'8% rispetto allo stato dell'arte precedente nella classificazione non supervisionata su ImageNet-1K. Dimostriamo inoltre che I-Con può essere utilizzato per derivare metodi di debiasing principiati che migliorano gli apprenditori di rappresentazioni contrastive.
English
As the field of representation learning grows, there has been a proliferation
of different loss functions to solve different classes of problems. We
introduce a single information-theoretic equation that generalizes a large
collection of modern loss functions in machine learning. In particular, we
introduce a framework that shows that several broad classes of machine learning
methods are precisely minimizing an integrated KL divergence between two
conditional distributions: the supervisory and learned representations. This
viewpoint exposes a hidden information geometry underlying clustering, spectral
methods, dimensionality reduction, contrastive learning, and supervised
learning. This framework enables the development of new loss functions by
combining successful techniques from across the literature. We not only present
a wide array of proofs, connecting over 23 different approaches, but we also
leverage these theoretical results to create state-of-the-art unsupervised
image classifiers that achieve a +8% improvement over the prior
state-of-the-art on unsupervised classification on ImageNet-1K. We also
demonstrate that I-Con can be used to derive principled debiasing methods which
improve contrastive representation learners.Summary
AI-Generated Summary