ReMaX : Une approche de relaxation pour un meilleur entraînement dans la segmentation panoptique efficace
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
June 29, 2023
Auteurs: Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen
cs.AI
Résumé
Cet article présente un nouveau mécanisme pour faciliter l'entraînement des transformateurs à masques en vue d'une segmentation panoptique efficace, démocratisant ainsi son déploiement. Nous observons qu'en raison de sa grande complexité, l'objectif d'entraînement de la segmentation panoptique entraîne inévitablement une pénalisation beaucoup plus élevée des faux positifs. Cette perte déséquilibrée rend le processus d'entraînement des architectures basées sur des transformateurs à masques de bout en bout difficile, en particulier pour les modèles efficaces. Dans cet article, nous présentons ReMaX, qui introduit une relaxation des prédictions de masques et des prédictions de classes pendant l'entraînement pour la segmentation panoptique. Nous démontrons qu'avec ces techniques simples de relaxation pendant l'entraînement, notre modèle peut être amélioré de manière constante et significative sans aucun coût de calcul supplémentaire lors de l'inférence. En combinant notre méthode avec des architectures efficaces comme MobileNetV3-Small, notre méthode atteint de nouveaux résultats de pointe pour la segmentation panoptique efficace sur COCO, ADE20K et Cityscapes. Le code et les points de contrôle pré-entraînés seront disponibles à l'adresse suivante : https://github.com/google-research/deeplab2.
English
This paper presents a new mechanism to facilitate the training of mask
transformers for efficient panoptic segmentation, democratizing its deployment.
We observe that due to its high complexity, the training objective of panoptic
segmentation will inevitably lead to much higher false positive penalization.
Such unbalanced loss makes the training process of the end-to-end
mask-transformer based architectures difficult, especially for efficient
models. In this paper, we present ReMaX that adds relaxation to mask
predictions and class predictions during training for panoptic segmentation. We
demonstrate that via these simple relaxation techniques during training, our
model can be consistently improved by a clear margin without any extra
computational cost on inference. By combining our method with efficient
backbones like MobileNetV3-Small, our method achieves new state-of-the-art
results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes.
Code and pre-trained checkpoints will be available at
https://github.com/google-research/deeplab2.