De rol van entropie en reconstructie in multi-view zelf-superviserend leren
The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning
July 20, 2023
Auteurs: Borja Rodríguez-Gálvez, Arno Blaas, Pau Rodríguez, Adam Goliński, Xavier Suau, Jason Ramapuram, Dan Busbridge, Luca Zappella
cs.AI
Samenvatting
De mechanismen achter het succes van multi-view zelf-ondersteund leren (MVSSL) zijn nog niet volledig begrepen. Contrastieve MVSSL-methoden zijn bestudeerd vanuit het perspectief van InfoNCE, een ondergrens van de Wederzijdse Informatie (MI). De relatie tussen andere MVSSL-methoden en MI blijft echter onduidelijk. Wij beschouwen een andere ondergrens op de MI, bestaande uit een entropie- en een reconstructieterm (ER), en analyseren de belangrijkste MVSSL-families vanuit dit perspectief. Door deze ER-ondergrens tonen we aan dat clustering-gebaseerde methoden zoals DeepCluster en SwAV de MI maximaliseren. We herinterpreteren ook de mechanismen van distillatie-gebaseerde benaderingen zoals BYOL en DINO, en laten zien dat ze expliciet de reconstructieterm maximaliseren en impliciet een stabiele entropie bevorderen, wat we empirisch bevestigen. We tonen aan dat het vervangen van de doelen van veelgebruikte MVSSL-methoden door deze ER-ondergrens competitieve prestaties bereikt, terwijl ze stabiel blijven bij training met kleinere batchgroottes of kleinere exponentiële voortschrijdende gemiddelde (EMA) coëfficiënten.
Github repo: https://github.com/apple/ml-entropy-reconstruction.
English
The mechanisms behind the success of multi-view self-supervised learning
(MVSSL) are not yet fully understood. Contrastive MVSSL methods have been
studied through the lens of InfoNCE, a lower bound of the Mutual Information
(MI). However, the relation between other MVSSL methods and MI remains unclear.
We consider a different lower bound on the MI consisting of an entropy and a
reconstruction term (ER), and analyze the main MVSSL families through its lens.
Through this ER bound, we show that clustering-based methods such as
DeepCluster and SwAV maximize the MI. We also re-interpret the mechanisms of
distillation-based approaches such as BYOL and DINO, showing that they
explicitly maximize the reconstruction term and implicitly encourage a stable
entropy, and we confirm this empirically. We show that replacing the objectives
of common MVSSL methods with this ER bound achieves competitive performance,
while making them stable when training with smaller batch sizes or smaller
exponential moving average (EMA) coefficients.
Github repo: https://github.com/apple/ml-entropy-reconstruction.