Le rôle de l'entropie et de la reconstruction dans l'apprentissage auto-supervisé multi-vues
The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning
July 20, 2023
Auteurs: Borja Rodríguez-Gálvez, Arno Blaas, Pau Rodríguez, Adam Goliński, Xavier Suau, Jason Ramapuram, Dan Busbridge, Luca Zappella
cs.AI
Résumé
Les mécanismes sous-jacents au succès de l'apprentissage auto-supervisé multi-vues (MVSSL) ne sont pas encore entièrement compris. Les méthodes contrastives de MVSSL ont été étudiées à travers le prisme d'InfoNCE, une borne inférieure de l'information mutuelle (MI). Cependant, la relation entre les autres méthodes de MVSSL et l'information mutuelle reste incertaine. Nous considérons une borne inférieure différente sur l'information mutuelle, composée d'un terme d'entropie et d'un terme de reconstruction (ER), et analysons les principales familles de MVSSL à travers ce prisme. Grâce à cette borne ER, nous montrons que les méthodes basées sur le clustering, telles que DeepCluster et SwAV, maximisent l'information mutuelle. Nous réinterprétons également les mécanismes des approches basées sur la distillation, comme BYOL et DINO, en montrant qu'elles maximisent explicitement le terme de reconstruction et encouragent implicitement une entropie stable, ce que nous confirmons empiriquement. Nous démontrons que le remplacement des objectifs des méthodes courantes de MVSSL par cette borne ER permet d'atteindre des performances compétitives, tout en les rendant stables lors de l'entraînement avec des tailles de lot plus petites ou des coefficients de moyenne mobile exponentielle (EMA) plus faibles.
Dépôt Github : https://github.com/apple/ml-entropy-reconstruction.
English
The mechanisms behind the success of multi-view self-supervised learning
(MVSSL) are not yet fully understood. Contrastive MVSSL methods have been
studied through the lens of InfoNCE, a lower bound of the Mutual Information
(MI). However, the relation between other MVSSL methods and MI remains unclear.
We consider a different lower bound on the MI consisting of an entropy and a
reconstruction term (ER), and analyze the main MVSSL families through its lens.
Through this ER bound, we show that clustering-based methods such as
DeepCluster and SwAV maximize the MI. We also re-interpret the mechanisms of
distillation-based approaches such as BYOL and DINO, showing that they
explicitly maximize the reconstruction term and implicitly encourage a stable
entropy, and we confirm this empirically. We show that replacing the objectives
of common MVSSL methods with this ER bound achieves competitive performance,
while making them stable when training with smaller batch sizes or smaller
exponential moving average (EMA) coefficients.
Github repo: https://github.com/apple/ml-entropy-reconstruction.