ReMaX: Relaxando para Melhor Treinamento em Segmentação Panóptica Eficiente
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
June 29, 2023
Autores: Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen
cs.AI
Resumo
Este artigo apresenta um novo mecanismo para facilitar o treinamento de transformadores de máscara para segmentação panóptica eficiente, democratizando sua implantação. Observamos que, devido à sua alta complexidade, o objetivo de treinamento da segmentação panóptica inevitavelmente levará a uma penalização muito maior de falsos positivos. Essa perda desequilibrada torna o processo de treinamento das arquiteturas baseadas em transformadores de máscara de ponta a ponta difícil, especialmente para modelos eficientes. Neste artigo, apresentamos o ReMaX, que adiciona relaxamento às previsões de máscara e às previsões de classe durante o treinamento para segmentação panóptica. Demonstramos que, por meio dessas técnicas simples de relaxamento durante o treinamento, nosso modelo pode ser consistentemente melhorado por uma margem clara sem nenhum custo computacional adicional na inferência. Ao combinar nosso método com backbones eficientes como o MobileNetV3-Small, nosso método alcança novos resultados state-of-the-art para segmentação panóptica eficiente em COCO, ADE20K e Cityscapes. O código e os checkpoints pré-treinados estarão disponíveis em https://github.com/google-research/deeplab2.
English
This paper presents a new mechanism to facilitate the training of mask
transformers for efficient panoptic segmentation, democratizing its deployment.
We observe that due to its high complexity, the training objective of panoptic
segmentation will inevitably lead to much higher false positive penalization.
Such unbalanced loss makes the training process of the end-to-end
mask-transformer based architectures difficult, especially for efficient
models. In this paper, we present ReMaX that adds relaxation to mask
predictions and class predictions during training for panoptic segmentation. We
demonstrate that via these simple relaxation techniques during training, our
model can be consistently improved by a clear margin without any extra
computational cost on inference. By combining our method with efficient
backbones like MobileNetV3-Small, our method achieves new state-of-the-art
results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes.
Code and pre-trained checkpoints will be available at
https://github.com/google-research/deeplab2.