ReMaX: Entspannung für ein besseres Training bei effizienter panoptischer Segmentierung
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
June 29, 2023
Autoren: Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen
cs.AI
Zusammenfassung
Dieses Papier stellt einen neuen Mechanismus vor, der das Training von Maskentransformern für effiziente panoptische Segmentierung erleichtert und deren Einsatz zugänglicher macht. Wir beobachten, dass das Trainingsziel der panoptischen Segmentierung aufgrund ihrer hohen Komplexität unweigerlich zu einer deutlich stärkeren Bestrafung von falsch positiven Ergebnissen führt. Ein solcher unausgewogener Verlust erschwert den Trainingsprozess von end-to-end Maskentransformer-basierten Architekturen, insbesondere für effiziente Modelle. In diesem Papier präsentieren wir ReMaX, das während des Trainings für die panoptische Segmentierung eine Entspannung der Maskenvorhersagen und Klassenvorhersagen hinzufügt. Wir zeigen, dass durch diese einfachen Entspannungstechniken während des Trainings unser Modell konsequent und deutlich verbessert werden kann, ohne zusätzliche Rechenkosten bei der Inferenz. Durch die Kombination unserer Methode mit effizienten Backbones wie MobileNetV3-Small erzielt unsere Methode neue state-of-the-art Ergebnisse für effiziente panoptische Segmentierung auf COCO, ADE20K und Cityscapes. Code und vortrainierte Checkpoints werden unter https://github.com/google-research/deeplab2 verfügbar sein.
English
This paper presents a new mechanism to facilitate the training of mask
transformers for efficient panoptic segmentation, democratizing its deployment.
We observe that due to its high complexity, the training objective of panoptic
segmentation will inevitably lead to much higher false positive penalization.
Such unbalanced loss makes the training process of the end-to-end
mask-transformer based architectures difficult, especially for efficient
models. In this paper, we present ReMaX that adds relaxation to mask
predictions and class predictions during training for panoptic segmentation. We
demonstrate that via these simple relaxation techniques during training, our
model can be consistently improved by a clear margin without any extra
computational cost on inference. By combining our method with efficient
backbones like MobileNetV3-Small, our method achieves new state-of-the-art
results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes.
Code and pre-trained checkpoints will be available at
https://github.com/google-research/deeplab2.