Die Rolle von Entropie und Rekonstruktion im Multi-View-Selbstüberwachten Lernen
The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning
July 20, 2023
Autoren: Borja Rodríguez-Gálvez, Arno Blaas, Pau Rodríguez, Adam Goliński, Xavier Suau, Jason Ramapuram, Dan Busbridge, Luca Zappella
cs.AI
Zusammenfassung
Die Mechanismen hinter dem Erfolg von Multi-View Self-Supervised Learning (MVSSL) sind noch nicht vollständig verstanden. Kontrastive MVSSL-Methoden wurden durch die Linse von InfoNCE, einer unteren Schranke der Mutual Information (MI), untersucht. Die Beziehung zwischen anderen MVSSL-Methoden und MI bleibt jedoch unklar. Wir betrachten eine andere untere Schranke der MI, die aus einem Entropie- und einem Rekonstruktionsterm (ER) besteht, und analysieren die wichtigsten MVSSL-Familien durch diese Linse. Durch diese ER-Schranke zeigen wir, dass clustering-basierte Methoden wie DeepCluster und SwAV die MI maximieren. Wir interpretieren auch die Mechanismen von Distillationsansätzen wie BYOL und DINO neu und zeigen, dass sie den Rekonstruktionsterm explizit maximieren und implizit eine stabile Entropie fördern, was wir empirisch bestätigen. Wir zeigen, dass das Ersetzen der Ziele gängiger MVSSL-Methoden durch diese ER-Schranke eine wettbewerbsfähige Leistung erzielt, während sie stabil bleibt, wenn mit kleineren Batch-Größen oder kleineren exponentiellen gleitenden Durchschnittskoeffizienten (EMA) trainiert wird.
Github-Repo: https://github.com/apple/ml-entropy-reconstruction.
English
The mechanisms behind the success of multi-view self-supervised learning
(MVSSL) are not yet fully understood. Contrastive MVSSL methods have been
studied through the lens of InfoNCE, a lower bound of the Mutual Information
(MI). However, the relation between other MVSSL methods and MI remains unclear.
We consider a different lower bound on the MI consisting of an entropy and a
reconstruction term (ER), and analyze the main MVSSL families through its lens.
Through this ER bound, we show that clustering-based methods such as
DeepCluster and SwAV maximize the MI. We also re-interpret the mechanisms of
distillation-based approaches such as BYOL and DINO, showing that they
explicitly maximize the reconstruction term and implicitly encourage a stable
entropy, and we confirm this empirically. We show that replacing the objectives
of common MVSSL methods with this ER bound achieves competitive performance,
while making them stable when training with smaller batch sizes or smaller
exponential moving average (EMA) coefficients.
Github repo: https://github.com/apple/ml-entropy-reconstruction.