ReMaX: Relaxando para Melhor Treinamento em Segmentação Panóptica Eficiente

Resumo

Este artigo apresenta um novo mecanismo para facilitar o treinamento de transformadores de máscara para segmentação panóptica eficiente, democratizando sua implantação. Observamos que, devido à sua alta complexidade, o objetivo de treinamento da segmentação panóptica inevitavelmente levará a uma penalização muito maior de falsos positivos. Essa perda desequilibrada torna o processo de treinamento das arquiteturas baseadas em transformadores de máscara de ponta a ponta difícil, especialmente para modelos eficientes. Neste artigo, apresentamos o ReMaX, que adiciona relaxamento às previsões de máscara e às previsões de classe durante o treinamento para segmentação panóptica. Demonstramos que, por meio dessas técnicas simples de relaxamento durante o treinamento, nosso modelo pode ser consistentemente melhorado por uma margem clara sem nenhum custo computacional adicional na inferência. Ao combinar nosso método com backbones eficientes como o MobileNetV3-Small, nosso método alcança novos resultados state-of-the-art para segmentação panóptica eficiente em COCO, ADE20K e Cityscapes. O código e os checkpoints pré-treinados estarão disponíveis em https://github.com/google-research/deeplab2.

English

This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher false positive penalization. Such unbalanced loss makes the training process of the end-to-end mask-transformer based architectures difficult, especially for efficient models. In this paper, we present ReMaX that adds relaxation to mask predictions and class predictions during training for panoptic segmentation. We demonstrate that via these simple relaxation techniques during training, our model can be consistently improved by a clear margin without any extra computational cost on inference. By combining our method with efficient backbones like MobileNetV3-Small, our method achieves new state-of-the-art results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes. Code and pre-trained checkpoints will be available at https://github.com/google-research/deeplab2.

ReMaX: Relaxando para Melhor Treinamento em Segmentação Panóptica Eficiente

ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Resumo

Support