El papel de la entropía y la reconstrucción en el aprendizaje autosupervisado multivista
The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning
July 20, 2023
Autores: Borja Rodríguez-Gálvez, Arno Blaas, Pau Rodríguez, Adam Goliński, Xavier Suau, Jason Ramapuram, Dan Busbridge, Luca Zappella
cs.AI
Resumen
Los mecanismos detrás del éxito del aprendizaje autosupervisado multivista (MVSSL, por sus siglas en inglés) aún no se comprenden completamente. Los métodos contrastivos de MVSSL han sido estudiados a través de la lente de InfoNCE, una cota inferior de la Información Mutua (MI, por sus siglas en inglés). Sin embargo, la relación entre otros métodos de MVSSL y la MI sigue siendo poco clara. Consideramos una cota inferior diferente de la MI que consta de un término de entropía y un término de reconstrucción (ER, por sus siglas en inglés), y analizamos las principales familias de MVSSL a través de esta lente. Mediante esta cota ER, demostramos que métodos basados en agrupamiento, como DeepCluster y SwAV, maximizan la MI. También reinterpretamos los mecanismos de enfoques basados en destilación, como BYOL y DINO, mostrando que maximizan explícitamente el término de reconstrucción e implícitamente fomentan una entropía estable, lo cual confirmamos empíricamente. Demostramos que reemplazar los objetivos de los métodos comunes de MVSSL con esta cota ER logra un rendimiento competitivo, al mismo tiempo que los hace más estables al entrenar con tamaños de lote más pequeños o coeficientes de media móvil exponencial (EMA, por sus siglas en inglés) más reducidos.
Repositorio de Github: https://github.com/apple/ml-entropy-reconstruction.
English
The mechanisms behind the success of multi-view self-supervised learning
(MVSSL) are not yet fully understood. Contrastive MVSSL methods have been
studied through the lens of InfoNCE, a lower bound of the Mutual Information
(MI). However, the relation between other MVSSL methods and MI remains unclear.
We consider a different lower bound on the MI consisting of an entropy and a
reconstruction term (ER), and analyze the main MVSSL families through its lens.
Through this ER bound, we show that clustering-based methods such as
DeepCluster and SwAV maximize the MI. We also re-interpret the mechanisms of
distillation-based approaches such as BYOL and DINO, showing that they
explicitly maximize the reconstruction term and implicitly encourage a stable
entropy, and we confirm this empirically. We show that replacing the objectives
of common MVSSL methods with this ER bound achieves competitive performance,
while making them stable when training with smaller batch sizes or smaller
exponential moving average (EMA) coefficients.
Github repo: https://github.com/apple/ml-entropy-reconstruction.