ChatPaper.aiChatPaper

Aumentaciones de Campos Aleatorios para el Aprendizaje Autosupervisado de Representaciones

Random Field Augmentations for Self-Supervised Representation Learning

November 7, 2023
Autores: Philip Andrew Mansfield, Arash Afkanpour, Warren Richard Morningstar, Karan Singhal
cs.AI

Resumen

El aprendizaje de representaciones auto-supervisado depende en gran medida de las aumentaciones de datos para especificar las invarianzas codificadas en las representaciones. Trabajos previos han demostrado que aplicar aumentaciones de datos diversas es crucial para el rendimiento en tareas posteriores, pero las técnicas de aumentación siguen siendo poco exploradas. En este trabajo, proponemos una nueva familia de transformaciones locales basadas en campos aleatorios gaussianos para generar aumentaciones de imágenes en el aprendizaje de representaciones auto-supervisado. Estas transformaciones generalizan las bien establecidas transformaciones afines y de color (traslación, rotación, variación de color, etc.) y aumentan significativamente el espacio de aumentaciones al permitir que los valores de los parámetros de transformación varíen de píxel a píxel. Los parámetros se tratan como funciones continuas de las coordenadas espaciales y se modelan como campos aleatorios gaussianos independientes. Los resultados empíricos muestran la efectividad de las nuevas transformaciones para el aprendizaje de representaciones auto-supervisado. Específicamente, logramos una mejora del 1.7% en la precisión top-1 sobre la línea base en la clasificación posterior en ImageNet, y una mejora del 3.6% en la clasificación posterior fuera de distribución en iNaturalist. Sin embargo, debido a la flexibilidad de las nuevas transformaciones, las representaciones aprendidas son sensibles a los hiperparámetros. Mientras que transformaciones suaves mejoran las representaciones, observamos que transformaciones fuertes pueden degradar la estructura de una imagen, lo que indica que equilibrar la diversidad y la fuerza de las aumentaciones es importante para mejorar la generalización de las representaciones aprendidas.
English
Self-supervised representation learning is heavily dependent on data augmentations to specify the invariances encoded in representations. Previous work has shown that applying diverse data augmentations is crucial to downstream performance, but augmentation techniques remain under-explored. In this work, we propose a new family of local transformations based on Gaussian random fields to generate image augmentations for self-supervised representation learning. These transformations generalize the well-established affine and color transformations (translation, rotation, color jitter, etc.) and greatly increase the space of augmentations by allowing transformation parameter values to vary from pixel to pixel. The parameters are treated as continuous functions of spatial coordinates, and modeled as independent Gaussian random fields. Empirical results show the effectiveness of the new transformations for self-supervised representation learning. Specifically, we achieve a 1.7% top-1 accuracy improvement over baseline on ImageNet downstream classification, and a 3.6% improvement on out-of-distribution iNaturalist downstream classification. However, due to the flexibility of the new transformations, learned representations are sensitive to hyperparameters. While mild transformations improve representations, we observe that strong transformations can degrade the structure of an image, indicating that balancing the diversity and strength of augmentations is important for improving generalization of learned representations.
PDF100December 15, 2024