I-Con: Un Framework Unificato per l'Apprendimento di Rappresentazioni

Abstract

Con il progredire del campo dell'apprendimento di rappresentazioni, si è assistito a una proliferazione di diverse funzioni di perdita per risolvere diverse classi di problemi. Introduciamo un'unica equazione di natura teorico-informativa che generalizza una vasta collezione di moderne funzioni di perdita nell'apprendimento automatico. In particolare, presentiamo un framework che dimostra come diverse ampie classi di metodi di apprendimento automatico stiano minimizzando in modo preciso una divergenza KL integrata tra due distribuzioni condizionali: le rappresentazioni supervisionate e quelle apprese. Questa prospettiva rivela una geometria informativa sottostante a tecniche come il clustering, i metodi spettrali, la riduzione della dimensionalità, l'apprendimento contrastivo e l'apprendimento supervisionato. Questo framework consente lo sviluppo di nuove funzioni di perdita combinando tecniche di successo tratte dalla letteratura. Non solo presentiamo una vasta gamma di dimostrazioni, collegando oltre 23 approcci diversi, ma sfruttiamo anche questi risultati teorici per creare classificatori di immagini non supervisionati all'avanguardia che raggiungono un miglioramento dell'8% rispetto allo stato dell'arte precedente nella classificazione non supervisionata su ImageNet-1K. Dimostriamo inoltre che I-Con può essere utilizzato per derivare metodi di debiasing principiati che migliorano gli apprenditori di rappresentazioni contrastive.

English

As the field of representation learning grows, there has been a proliferation of different loss functions to solve different classes of problems. We introduce a single information-theoretic equation that generalizes a large collection of modern loss functions in machine learning. In particular, we introduce a framework that shows that several broad classes of machine learning methods are precisely minimizing an integrated KL divergence between two conditional distributions: the supervisory and learned representations. This viewpoint exposes a hidden information geometry underlying clustering, spectral methods, dimensionality reduction, contrastive learning, and supervised learning. This framework enables the development of new loss functions by combining successful techniques from across the literature. We not only present a wide array of proofs, connecting over 23 different approaches, but we also leverage these theoretical results to create state-of-the-art unsupervised image classifiers that achieve a +8% improvement over the prior state-of-the-art on unsupervised classification on ImageNet-1K. We also demonstrate that I-Con can be used to derive principled debiasing methods which improve contrastive representation learners.

I-Con: Un Framework Unificato per l'Apprendimento di Rappresentazioni

I-Con: A Unifying Framework for Representation Learning

Abstract

Support