InfoNCE Induce una Distribuzione Gaussiana

Abstract

L'apprendimento contrastivo è diventato un pilastro dell'apprendimento di rappresentazioni moderno, consentendo l'addestramento con enormi quantità di dati non etichettati sia per modelli specifici per un compito che per modelli generali (fondamentali). Una funzione di perdita prototipica nell'addestramento contrastivo è InfoNCE e le sue varianti. In questo lavoro, dimostriamo che l'obiettivo InfoNCE induce una struttura gaussiana nelle rappresentazioni che emergono dall'addestramento contrastivo. Stabiliamo questo risultato in due regimi complementari. In primo luogo, mostriamo che, sotto determinate ipotesi di allineamento e concentrazione, le proiezioni della rappresentazione ad alta dimensionalità si avvicinano asintoticamente a una distribuzione gaussiana multivariata. Successivamente, sotto ipotesi meno restrittive, mostriamo che l'aggiunta di un piccolo termine di regolarizzazione, asintoticamente trascurabile, che promuove una bassa norma delle feature e un'alta entropia delle feature, porta a risultati asintotici simili. Supportiamo la nostra analisi con esperimenti su dataset sintetici e CIFAR-10 su molteplici architetture e dimensioni di encoder, dimostrando un comportamento gaussiano coerente. Questa prospettiva fornisce una spiegazione principiata per la gaussianità comunemente osservata nelle rappresentazioni contrastive. Il modello gaussiano risultante consente un trattamento analitico principiato delle rappresentazioni apprese e si prevede che supporti un'ampia gamma di applicazioni nell'apprendimento contrastivo.

English

Contrastive learning has become a cornerstone of modern representation learning, allowing training with massive unlabeled data for both task-specific and general (foundation) models. A prototypical loss in contrastive training is InfoNCE and its variants. In this work, we show that the InfoNCE objective induces Gaussian structure in representations that emerge from contrastive training. We establish this result in two complementary regimes. First, we show that under certain alignment and concentration assumptions, projections of the high-dimensional representation asymptotically approach a multivariate Gaussian distribution. Next, under less strict assumptions, we show that adding a small asymptotically vanishing regularization term that promotes low feature norm and high feature entropy leads to similar asymptotic results. We support our analysis with experiments on synthetic and CIFAR-10 datasets across multiple encoder architectures and sizes, demonstrating consistent Gaussian behavior. This perspective provides a principled explanation for commonly observed Gaussianity in contrastive representations. The resulting Gaussian model enables principled analytical treatment of learned representations and is expected to support a wide range of applications in contrastive learning.