ReMaX: Relajación para un mejor entrenamiento en segmentación panóptica eficiente

Resumen

Este artículo presenta un nuevo mecanismo para facilitar el entrenamiento de transformadores de máscaras para la segmentación panóptica eficiente, democratizando su implementación. Observamos que, debido a su alta complejidad, el objetivo de entrenamiento de la segmentación panóptica inevitablemente conduce a una penalización mucho mayor de falsos positivos. Esta pérdida desequilibrada dificulta el proceso de entrenamiento de las arquitecturas basadas en transformadores de máscaras de extremo a extremo, especialmente para modelos eficientes. En este artículo, presentamos ReMaX, que añade relajación a las predicciones de máscaras y clases durante el entrenamiento para la segmentación panóptica. Demostramos que, mediante estas técnicas simples de relajación durante el entrenamiento, nuestro modelo puede mejorarse consistentemente por un margen claro sin ningún costo computacional adicional en la inferencia. Al combinar nuestro método con arquitecturas eficientes como MobileNetV3-Small, nuestro método alcanza nuevos resultados de vanguardia para la segmentación panóptica eficiente en COCO, ADE20K y Cityscapes. El código y los puntos de control preentrenados estarán disponibles en https://github.com/google-research/deeplab2.

English

This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher false positive penalization. Such unbalanced loss makes the training process of the end-to-end mask-transformer based architectures difficult, especially for efficient models. In this paper, we present ReMaX that adds relaxation to mask predictions and class predictions during training for panoptic segmentation. We demonstrate that via these simple relaxation techniques during training, our model can be consistently improved by a clear margin without any extra computational cost on inference. By combining our method with efficient backbones like MobileNetV3-Small, our method achieves new state-of-the-art results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes. Code and pre-trained checkpoints will be available at https://github.com/google-research/deeplab2.

ReMaX: Relajación para un mejor entrenamiento en segmentación panóptica eficiente

ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Resumen

Support