ReMaX: Rilassamento per un Miglior Addestramento nell'Efficiente Segmentazione Panottica
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
June 29, 2023
Autori: Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen
cs.AI
Abstract
Questo articolo presenta un nuovo meccanismo per facilitare l'addestramento di trasformatori basati su maschere per una segmentazione panottica efficiente, democratizzandone l'implementazione. Osserviamo che, a causa della sua elevata complessità, l'obiettivo di addestramento della segmentazione panottica porterà inevitabilmente a una penalizzazione molto più alta dei falsi positivi. Tale perdita sbilanciata rende difficile il processo di addestramento delle architetture end-to-end basate su trasformatori di maschere, specialmente per i modelli efficienti. In questo articolo, presentiamo ReMaX, che introduce un rilassamento delle previsioni delle maschere e delle classi durante l'addestramento per la segmentazione panottica. Dimostriamo che, attraverso queste semplici tecniche di rilassamento durante l'addestramento, il nostro modello può essere migliorato in modo consistente con un margine significativo senza alcun costo computazionale aggiuntivo durante l'inferenza. Combinando il nostro metodo con backbone efficienti come MobileNetV3-Small, il nostro metodo raggiunge nuovi risultati all'avanguardia per la segmentazione panottica efficiente su COCO, ADE20K e Cityscapes. Il codice e i checkpoint pre-addestrati saranno disponibili su https://github.com/google-research/deeplab2.
English
This paper presents a new mechanism to facilitate the training of mask
transformers for efficient panoptic segmentation, democratizing its deployment.
We observe that due to its high complexity, the training objective of panoptic
segmentation will inevitably lead to much higher false positive penalization.
Such unbalanced loss makes the training process of the end-to-end
mask-transformer based architectures difficult, especially for efficient
models. In this paper, we present ReMaX that adds relaxation to mask
predictions and class predictions during training for panoptic segmentation. We
demonstrate that via these simple relaxation techniques during training, our
model can be consistently improved by a clear margin without any extra
computational cost on inference. By combining our method with efficient
backbones like MobileNetV3-Small, our method achieves new state-of-the-art
results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes.
Code and pre-trained checkpoints will be available at
https://github.com/google-research/deeplab2.