ChatPaper.aiChatPaper

Tu ViT es en secreto un modelo de segmentación de imágenes

Your ViT is Secretly an Image Segmentation Model

March 24, 2025
Autores: Tommie Kerssies, Niccolò Cavagnero, Alexander Hermans, Narges Norouzi, Giuseppe Averta, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI

Resumen

Los Transformers de Visión (ViTs) han demostrado un rendimiento y escalabilidad notables en diversas tareas de visión por computadora. Para aplicar ViTs de escala única a la segmentación de imágenes, los métodos existentes adoptan un adaptador convolucional para generar características multiescala, un decodificador de píxeles para fusionar estas características y un decodificador Transformer que utiliza las características fusionadas para realizar predicciones. En este artículo, mostramos que los sesgos inductivos introducidos por estos componentes específicos de la tarea pueden ser aprendidos por el propio ViT, dado modelos suficientemente grandes y un preentrenamiento extenso. Basándonos en estos hallazgos, presentamos el Mask Transformer de Solo Codificador (EoMT), que reutiliza la arquitectura simple del ViT para realizar segmentación de imágenes. Con modelos a gran escala y preentrenamiento, EoMT obtiene una precisión de segmentación similar a la de los modelos de vanguardia que utilizan componentes específicos de la tarea. Al mismo tiempo, EoMT es significativamente más rápido que estos métodos debido a su simplicidad arquitectónica, por ejemplo, hasta 4 veces más rápido con ViT-L. En una variedad de tamaños de modelos, EoMT demuestra un equilibrio óptimo entre la precisión de segmentación y la velocidad de predicción, sugiriendo que los recursos computacionales se aprovechan mejor al escalar el propio ViT en lugar de agregar complejidad arquitectónica. Código: https://www.tue-mps.org/eomt/.
English
Vision Transformers (ViTs) have shown remarkable performance and scalability across various computer vision tasks. To apply single-scale ViTs to image segmentation, existing methods adopt a convolutional adapter to generate multi-scale features, a pixel decoder to fuse these features, and a Transformer decoder that uses the fused features to make predictions. In this paper, we show that the inductive biases introduced by these task-specific components can instead be learned by the ViT itself, given sufficiently large models and extensive pre-training. Based on these findings, we introduce the Encoder-only Mask Transformer (EoMT), which repurposes the plain ViT architecture to conduct image segmentation. With large-scale models and pre-training, EoMT obtains a segmentation accuracy similar to state-of-the-art models that use task-specific components. At the same time, EoMT is significantly faster than these methods due to its architectural simplicity, e.g., up to 4x faster with ViT-L. Across a range of model sizes, EoMT demonstrates an optimal balance between segmentation accuracy and prediction speed, suggesting that compute resources are better spent on scaling the ViT itself rather than adding architectural complexity. Code: https://www.tue-mps.org/eomt/.

Summary

AI-Generated Summary

PDF212March 31, 2025