InfoNCE induit une distribution gaussienne

Résumé

L'apprentissage contrastif est devenu une pierre angulaire de l'apprentissage de représentations moderne, permettant un entraînement avec des données non étiquetées massives pour des modèles spécifiques à une tâche comme pour des modèles généraux (de fondation). Une fonction de perte prototypique dans l'entraînement contrastif est InfoNCE et ses variantes. Dans ce travail, nous montrons que l'objectif InfoNCE induit une structure gaussienne dans les représentations qui émergent de l'apprentissage contrastif. Nous établissons ce résultat dans deux régimes complémentaires. Premièrement, nous montrons que sous certaines hypothèses d'alignement et de concentration, les projections de la représentation en haute dimension approchent asymptotiquement une distribution gaussienne multivariée. Ensuite, sous des hypothèses moins strictes, nous montrons qu'ajouter un petit terme de régularisation, asymptotiquement négligeable, qui favorise une faible norme des caractéristiques et une entropie élevée des caractéristiques, conduit à des résultats asymptotiques similaires. Nous étayons notre analyse par des expériences sur des ensembles de données synthétiques et CIFAR-10 avec diverses architectures et tailles d'encodeurs, démontrant un comportement gaussien cohérent. Cette perspective fournit une explication principielle pour la gaussianité couramment observée dans les représentations contrastives. Le modèle gaussien qui en résulte permet un traitement analytique principiel des représentations apprises et devrait soutenir un large éventail d'applications dans l'apprentissage contrastif.

English

Contrastive learning has become a cornerstone of modern representation learning, allowing training with massive unlabeled data for both task-specific and general (foundation) models. A prototypical loss in contrastive training is InfoNCE and its variants. In this work, we show that the InfoNCE objective induces Gaussian structure in representations that emerge from contrastive training. We establish this result in two complementary regimes. First, we show that under certain alignment and concentration assumptions, projections of the high-dimensional representation asymptotically approach a multivariate Gaussian distribution. Next, under less strict assumptions, we show that adding a small asymptotically vanishing regularization term that promotes low feature norm and high feature entropy leads to similar asymptotic results. We support our analysis with experiments on synthetic and CIFAR-10 datasets across multiple encoder architectures and sizes, demonstrating consistent Gaussian behavior. This perspective provides a principled explanation for commonly observed Gaussianity in contrastive representations. The resulting Gaussian model enables principled analytical treatment of learned representations and is expected to support a wide range of applications in contrastive learning.

InfoNCE induit une distribution gaussienne

InfoNCE Induces Gaussian Distribution

Résumé

Support