ReMaX: Оптимизация обучения для эффективной панорамной сегментации через релаксацию

Аннотация

В данной статье представлен новый механизм, облегчающий обучение масочных трансформаторов для эффективной панорамной сегментации, что делает их применение более доступным. Мы отмечаем, что из-за высокой сложности задачи обучения панорамной сегментации неизбежно возникает значительное увеличение штрафа за ложные срабатывания. Такой несбалансированный убыток затрудняет процесс обучения архитектур на основе масочных трансформаторов, особенно для эффективных моделей. В этой статье мы представляем ReMaX, который вводит релаксацию для предсказаний масок и классов в процессе обучения панорамной сегментации. Мы демонстрируем, что с помощью этих простых техник релаксации в процессе обучения наша модель может быть последовательно улучшена с заметным отрывом без дополнительных вычислительных затрат на этапе вывода. Комбинируя наш метод с эффективными базовыми архитектурами, такими как MobileNetV3-Small, мы достигаем новых наилучших результатов для эффективной панорамной сегментации на наборах данных COCO, ADE20K и Cityscapes. Код и предобученные модели будут доступны по адресу https://github.com/google-research/deeplab2.

English

This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher false positive penalization. Such unbalanced loss makes the training process of the end-to-end mask-transformer based architectures difficult, especially for efficient models. In this paper, we present ReMaX that adds relaxation to mask predictions and class predictions during training for panoptic segmentation. We demonstrate that via these simple relaxation techniques during training, our model can be consistently improved by a clear margin without any extra computational cost on inference. By combining our method with efficient backbones like MobileNetV3-Small, our method achieves new state-of-the-art results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes. Code and pre-trained checkpoints will be available at https://github.com/google-research/deeplab2.

ReMaX: Оптимизация обучения для эффективной панорамной сегментации через релаксацию

ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Аннотация

Support