InfoNCE Induz uma Distribuição Gaussiana

Resumo

A aprendizagem contrastiva tornou-se um pilar fundamental da aprendizagem de representações moderna, permitindo o treinamento com dados massivos não rotulados tanto para modelos específicos de tarefas quanto para modelos gerais (de base). Uma função de perda prototípica no treinamento contrastivo é o InfoNCE e suas variantes. Neste trabalho, demonstramos que o objetivo do InfoNCE induz uma estrutura Gaussiana nas representações que emergem do treinamento contrastivo. Estabelecemos este resultado em dois regimes complementares. Primeiro, mostramos que, sob certos pressupostos de alinhamento e concentração, as projeções da representação de alta dimensão se aproximam assintoticamente de uma distribuição Gaussiana multivariada. Em seguida, sob pressupostos menos rigorosos, mostramos que adicionar um pequeno termo de regularização, assintoticamente decrescente, que promove baixa norma e alta entropia das características, conduz a resultados assintóticos semelhantes. Apoiamos nossa análise com experiências em conjuntos de dados sintéticos e no CIFAR-10, abrangendo várias arquiteturas e tamanhos de codificadores, demonstrando um comportamento Gaussiano consistente. Esta perspetiva fornece uma explicação fundamentada para a Gaussianidade frequentemente observada em representações contrastivas. O modelo Gaussiano resultante permite um tratamento analítico fundamentado das representações aprendidas e espera-se que suporte uma ampla gama de aplicações na aprendizagem contrastiva.

English

Contrastive learning has become a cornerstone of modern representation learning, allowing training with massive unlabeled data for both task-specific and general (foundation) models. A prototypical loss in contrastive training is InfoNCE and its variants. In this work, we show that the InfoNCE objective induces Gaussian structure in representations that emerge from contrastive training. We establish this result in two complementary regimes. First, we show that under certain alignment and concentration assumptions, projections of the high-dimensional representation asymptotically approach a multivariate Gaussian distribution. Next, under less strict assumptions, we show that adding a small asymptotically vanishing regularization term that promotes low feature norm and high feature entropy leads to similar asymptotic results. We support our analysis with experiments on synthetic and CIFAR-10 datasets across multiple encoder architectures and sizes, demonstrating consistent Gaussian behavior. This perspective provides a principled explanation for commonly observed Gaussianity in contrastive representations. The resulting Gaussian model enables principled analytical treatment of learned representations and is expected to support a wide range of applications in contrastive learning.