ChatPaper.aiChatPaper

YOLO-Master: Acelerado con MOE y Transformers Especializados para una Detección en Tiempo Real Mejorada

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

December 29, 2025
Autores: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu
cs.AI

Resumen

Los métodos existentes de detección de objetos en tiempo real (RTOD) comúnmente adoptan arquitecturas similares a YOLO por su favorable equilibrio entre precisión y velocidad. Sin embargo, estos modelos dependen de un cómputo denso estático que aplica un procesamiento uniforme a todas las entradas, malgastando capacidad de representación y recursos computacionales, como por ejemplo, asignando en exceso a escenas triviales mientras se infra-sirve a las complejas. Esta discrepancia resulta en redundancia computacional y un rendimiento de detección subóptimo. Para superar esta limitación, proponemos YOLO-Master, un novedoso marco similar a YOLO que introduce cómputo adaptativo condicionado por instancia para RTOD. Esto se logra mediante un bloque de Mezcla Eficiente de Expertos Dispersos (ES-MoE) que asigna dinámicamente recursos computacionales a cada entrada según su complejidad escénica. En su núcleo, una red de enrutamiento dinámico ligero guía la especialización de los expertos durante el entrenamiento mediante un objetivo que mejora la diversidad, fomentando una experiencia complementaria entre los expertos. Adicionalmente, la red de enrutamiento aprende de forma adaptativa a activar solo los expertos más relevantes, mejorando así el rendimiento de detección mientras minimiza la sobrecarga computacional durante la inferencia. Experimentos exhaustivos en cinco benchmarks a gran escala demuestran la superioridad de YOLO-Master. En MS COCO, nuestro modelo alcanza un 42.4% AP con una latencia de 1.62ms, superando a YOLOv13-N en +0.8% mAP y siendo un 17.8% más rápido en inferencia. Notablemente, las mejoras son más pronunciadas en escenas densas y desafiantes, mientras que el modelo preserva la eficiencia en entradas típicas y mantiene la velocidad de inferencia en tiempo real. El código estará disponible.
English
Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.
PDF71December 31, 2025