ChatPaper.aiChatPaper

DETR no necesita diseño multi-escala ni de localidad.

DETR Doesn't Need Multi-Scale or Locality Design

August 3, 2023
Autores: Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu
cs.AI

Resumen

Este artículo presenta un detector DETR mejorado que mantiene una naturaleza "simple": utiliza un mapa de características de escala única y cálculos de atención cruzada global sin restricciones específicas de localidad, en contraste con los detectores basados en DETR líderes anteriores que reintroducen sesgos inductivos arquitectónicos de multiescala y localidad en el decodificador. Demostramos que dos tecnologías simples son sorprendentemente efectivas dentro de un diseño simple para compensar la falta de mapas de características multiescala y restricciones de localidad. La primera es un término de sesgo de posición relativa de caja a píxel (BoxRPB) añadido a la formulación de atención cruzada, que guía eficazmente cada consulta para atender a la región del objeto correspondiente mientras también proporciona flexibilidad de codificación. La segunda es el preentrenamiento del backbone basado en modelado de imágenes enmascaradas (MIM), que ayuda a aprender representaciones con capacidad de localización fina y resulta crucial para remediar las dependencias de los mapas de características multiescala. Al incorporar estas tecnologías y avances recientes en el entrenamiento y la formulación del problema, el DETR "simple" mejorado mostró mejoras excepcionales sobre el detector DETR original. Al aprovechar el conjunto de datos Object365 para el preentrenamiento, logró una precisión de 63.9 mAP utilizando un backbone Swin-L, lo que es altamente competitivo con los detectores de última generación que dependen en gran medida de mapas de características multiescala y extracción de características basada en regiones. El código está disponible en https://github.com/impiga/Plain-DETR.
English
This paper presents an improved DETR detector that maintains a "plain" nature: using a single-scale feature map and global cross-attention calculations without specific locality constraints, in contrast to previous leading DETR-based detectors that reintroduce architectural inductive biases of multi-scale and locality into the decoder. We show that two simple technologies are surprisingly effective within a plain design to compensate for the lack of multi-scale feature maps and locality constraints. The first is a box-to-pixel relative position bias (BoxRPB) term added to the cross-attention formulation, which well guides each query to attend to the corresponding object region while also providing encoding flexibility. The second is masked image modeling (MIM)-based backbone pre-training which helps learn representation with fine-grained localization ability and proves crucial for remedying dependencies on the multi-scale feature maps. By incorporating these technologies and recent advancements in training and problem formation, the improved "plain" DETR showed exceptional improvements over the original DETR detector. By leveraging the Object365 dataset for pre-training, it achieved 63.9 mAP accuracy using a Swin-L backbone, which is highly competitive with state-of-the-art detectors which all heavily rely on multi-scale feature maps and region-based feature extraction. Code is available at https://github.com/impiga/Plain-DETR .
PDF80December 15, 2024