Aumentaciones de Campos Aleatorios para el Aprendizaje Autosupervisado de Representaciones
Random Field Augmentations for Self-Supervised Representation Learning
November 7, 2023
Autores: Philip Andrew Mansfield, Arash Afkanpour, Warren Richard Morningstar, Karan Singhal
cs.AI
Resumen
El aprendizaje de representaciones auto-supervisado depende en gran medida de las aumentaciones de datos para especificar las invarianzas codificadas en las representaciones. Trabajos previos han demostrado que aplicar aumentaciones de datos diversas es crucial para el rendimiento en tareas posteriores, pero las técnicas de aumentación siguen siendo poco exploradas. En este trabajo, proponemos una nueva familia de transformaciones locales basadas en campos aleatorios gaussianos para generar aumentaciones de imágenes en el aprendizaje de representaciones auto-supervisado. Estas transformaciones generalizan las bien establecidas transformaciones afines y de color (traslación, rotación, variación de color, etc.) y aumentan significativamente el espacio de aumentaciones al permitir que los valores de los parámetros de transformación varíen de píxel a píxel. Los parámetros se tratan como funciones continuas de las coordenadas espaciales y se modelan como campos aleatorios gaussianos independientes. Los resultados empíricos muestran la efectividad de las nuevas transformaciones para el aprendizaje de representaciones auto-supervisado. Específicamente, logramos una mejora del 1.7% en la precisión top-1 sobre la línea base en la clasificación posterior en ImageNet, y una mejora del 3.6% en la clasificación posterior fuera de distribución en iNaturalist. Sin embargo, debido a la flexibilidad de las nuevas transformaciones, las representaciones aprendidas son sensibles a los hiperparámetros. Mientras que transformaciones suaves mejoran las representaciones, observamos que transformaciones fuertes pueden degradar la estructura de una imagen, lo que indica que equilibrar la diversidad y la fuerza de las aumentaciones es importante para mejorar la generalización de las representaciones aprendidas.
English
Self-supervised representation learning is heavily dependent on data
augmentations to specify the invariances encoded in representations. Previous
work has shown that applying diverse data augmentations is crucial to
downstream performance, but augmentation techniques remain under-explored. In
this work, we propose a new family of local transformations based on Gaussian
random fields to generate image augmentations for self-supervised
representation learning. These transformations generalize the well-established
affine and color transformations (translation, rotation, color jitter, etc.)
and greatly increase the space of augmentations by allowing transformation
parameter values to vary from pixel to pixel. The parameters are treated as
continuous functions of spatial coordinates, and modeled as independent
Gaussian random fields. Empirical results show the effectiveness of the new
transformations for self-supervised representation learning. Specifically, we
achieve a 1.7% top-1 accuracy improvement over baseline on ImageNet downstream
classification, and a 3.6% improvement on out-of-distribution iNaturalist
downstream classification. However, due to the flexibility of the new
transformations, learned representations are sensitive to hyperparameters.
While mild transformations improve representations, we observe that strong
transformations can degrade the structure of an image, indicating that
balancing the diversity and strength of augmentations is important for
improving generalization of learned representations.