ReMaX: Оптимизация обучения для эффективной панорамной сегментации через релаксацию
ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation
June 29, 2023
Авторы: Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr, Liang-Chieh Chen
cs.AI
Аннотация
В данной статье представлен новый механизм, облегчающий обучение масочных трансформаторов для эффективной панорамной сегментации, что делает их применение более доступным. Мы отмечаем, что из-за высокой сложности задачи обучения панорамной сегментации неизбежно возникает значительное увеличение штрафа за ложные срабатывания. Такой несбалансированный убыток затрудняет процесс обучения архитектур на основе масочных трансформаторов, особенно для эффективных моделей. В этой статье мы представляем ReMaX, который вводит релаксацию для предсказаний масок и классов в процессе обучения панорамной сегментации. Мы демонстрируем, что с помощью этих простых техник релаксации в процессе обучения наша модель может быть последовательно улучшена с заметным отрывом без дополнительных вычислительных затрат на этапе вывода. Комбинируя наш метод с эффективными базовыми архитектурами, такими как MobileNetV3-Small, мы достигаем новых наилучших результатов для эффективной панорамной сегментации на наборах данных COCO, ADE20K и Cityscapes. Код и предобученные модели будут доступны по адресу https://github.com/google-research/deeplab2.
English
This paper presents a new mechanism to facilitate the training of mask
transformers for efficient panoptic segmentation, democratizing its deployment.
We observe that due to its high complexity, the training objective of panoptic
segmentation will inevitably lead to much higher false positive penalization.
Such unbalanced loss makes the training process of the end-to-end
mask-transformer based architectures difficult, especially for efficient
models. In this paper, we present ReMaX that adds relaxation to mask
predictions and class predictions during training for panoptic segmentation. We
demonstrate that via these simple relaxation techniques during training, our
model can be consistently improved by a clear margin without any extra
computational cost on inference. By combining our method with efficient
backbones like MobileNetV3-Small, our method achieves new state-of-the-art
results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes.
Code and pre-trained checkpoints will be available at
https://github.com/google-research/deeplab2.