ReMaX: Relajación para un mejor entrenamiento en segmentación panóptica eficiente
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
June 29, 2023
Autores: Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen
cs.AI
Resumen
Este artículo presenta un nuevo mecanismo para facilitar el entrenamiento de transformadores de máscaras para la segmentación panóptica eficiente, democratizando su implementación. Observamos que, debido a su alta complejidad, el objetivo de entrenamiento de la segmentación panóptica inevitablemente conduce a una penalización mucho mayor de falsos positivos. Esta pérdida desequilibrada dificulta el proceso de entrenamiento de las arquitecturas basadas en transformadores de máscaras de extremo a extremo, especialmente para modelos eficientes. En este artículo, presentamos ReMaX, que añade relajación a las predicciones de máscaras y clases durante el entrenamiento para la segmentación panóptica. Demostramos que, mediante estas técnicas simples de relajación durante el entrenamiento, nuestro modelo puede mejorarse consistentemente por un margen claro sin ningún costo computacional adicional en la inferencia. Al combinar nuestro método con arquitecturas eficientes como MobileNetV3-Small, nuestro método alcanza nuevos resultados de vanguardia para la segmentación panóptica eficiente en COCO, ADE20K y Cityscapes. El código y los puntos de control preentrenados estarán disponibles en https://github.com/google-research/deeplab2.
English
This paper presents a new mechanism to facilitate the training of mask
transformers for efficient panoptic segmentation, democratizing its deployment.
We observe that due to its high complexity, the training objective of panoptic
segmentation will inevitably lead to much higher false positive penalization.
Such unbalanced loss makes the training process of the end-to-end
mask-transformer based architectures difficult, especially for efficient
models. In this paper, we present ReMaX that adds relaxation to mask
predictions and class predictions during training for panoptic segmentation. We
demonstrate that via these simple relaxation techniques during training, our
model can be consistently improved by a clear margin without any extra
computational cost on inference. By combining our method with efficient
backbones like MobileNetV3-Small, our method achieves new state-of-the-art
results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes.
Code and pre-trained checkpoints will be available at
https://github.com/google-research/deeplab2.