PolyMaX: Allgemeine dichte Vorhersage mit Mask-Transformer
PolyMaX: General Dense Prediction with Mask Transformer
November 9, 2023
Autoren: Xuan Yang, Liangzhe Yuan, Kimberly Wilber, Astuti Sharma, Xiuye Gu, Siyuan Qiao, Stephanie Debats, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Liang-Chieh Chen
cs.AI
Zusammenfassung
Dichte Vorhersageaufgaben wie semantische Segmentierung, Tiefenschätzung und Oberflächennormalenvorhersage können leicht als Klassifikation pro Pixel (diskrete Ausgaben) oder Regression (kontinuierliche Ausgaben) formuliert werden. Dieses Paradigma der Vorhersage pro Pixel ist aufgrund der Verbreitung von vollständig faltungsbasierten Netzwerken weiterhin beliebt. Auf der jüngsten Front der Segmentierungsaufgabe ist jedoch ein Paradigmenwechsel von der Vorhersage pro Pixel zur Cluster-Vorhersage zu beobachten, insbesondere mit dem Aufkommen von Transformer-Architekturen, insbesondere den Mask-Transformern, die direkt ein Label für eine Maske anstelle eines Pixels vorhersagen. Trotz dieses Wandels dominieren Methoden, die auf dem Paradigma der Vorhersage pro Pixel basieren, weiterhin die Benchmarks bei anderen dichten Vorhersageaufgaben, die kontinuierliche Ausgaben erfordern, wie Tiefenschätzung und Oberflächennormalenvorhersage. Motiviert durch den Erfolg von DORN und AdaBins in der Tiefenschätzung, die durch die Diskretisierung des kontinuierlichen Ausgaberaums erreicht wurden, schlagen wir vor, die Cluster-Vorhersage-basierte Methode auf allgemeine dichte Vorhersageaufgaben zu verallgemeinern. Dies ermöglicht es uns, dichte Vorhersageaufgaben mit dem Mask-Transformer-Framework zu vereinheitlichen. Bemerkenswerterweise zeigt das resultierende Modell PolyMaX state-of-the-art Leistung auf drei Benchmarks des NYUD-v2-Datensatzes. Wir hoffen, dass unser einfaches, aber effektives Design weitere Forschungen zur Nutzung von Mask-Transformern für mehr dichte Vorhersageaufgaben inspirieren kann. Code und Modell werden zur Verfügung gestellt.
English
Dense prediction tasks, such as semantic segmentation, depth estimation, and
surface normal prediction, can be easily formulated as per-pixel classification
(discrete outputs) or regression (continuous outputs). This per-pixel
prediction paradigm has remained popular due to the prevalence of fully
convolutional networks. However, on the recent frontier of segmentation task,
the community has been witnessing a shift of paradigm from per-pixel prediction
to cluster-prediction with the emergence of transformer architectures,
particularly the mask transformers, which directly predicts a label for a mask
instead of a pixel. Despite this shift, methods based on the per-pixel
prediction paradigm still dominate the benchmarks on the other dense prediction
tasks that require continuous outputs, such as depth estimation and surface
normal prediction. Motivated by the success of DORN and AdaBins in depth
estimation, achieved by discretizing the continuous output space, we propose to
generalize the cluster-prediction based method to general dense prediction
tasks. This allows us to unify dense prediction tasks with the mask transformer
framework. Remarkably, the resulting model PolyMaX demonstrates
state-of-the-art performance on three benchmarks of NYUD-v2 dataset. We hope
our simple yet effective design can inspire more research on exploiting mask
transformers for more dense prediction tasks. Code and model will be made
available.