YOLO-Master: Accelerato da MOE con Transformer Specializzati per il Rilevamento in Tempo Reale Potenziato

Abstract

I metodi esistenti per la rilevazione di oggetti in tempo reale (RTOD) adottano comunemente architetture di tipo YOLO per il loro favorevole compromesso tra accuratezza e velocità. Tuttavia, questi modelli si basano su un calcolo statico denso che applica un'elaborazione uniforme a tutti gli input, allocando erroneamente la capacità rappresentativa e le risorse computazionali, ad esempio sovra-allocando su scene banali mentre sotto-servendo quelle complesse. Questa discrepanza si traduce sia in ridondanza computazionale che in prestazioni di rilevamento subottimali. Per superare questa limitazione, proponiamo YOLO-Master, un nuovo framework di tipo YOLO che introduce un calcolo adattivo condizionato all'istanza per la RTOD. Ciò è ottenuto tramite un blocco Efficient Sparse Mixture-of-Experts (ES-MoE) che alloca dinamicamente le risorse computazionali a ciascun input in base alla sua complessità della scena. Nella sua essenza, una rete di routing dinamica leggera guida la specializzazione degli esperti durante l'addestramento attraverso un obiettivo di potenziamento della diversità, incoraggiando competenze complementari tra gli esperti. Inoltre, la rete di routing apprende in modo adattivo ad attivare solo gli esperti più rilevanti, migliorando così le prestazioni di rilevamento mentre minimizza l'overhead computazionale durante l'inferenza. Esperimenti completi su cinque benchmark su larga scala dimostrano la superiorità di YOLO-Master. Su MS COCO, il nostro modello raggiunge il 42.4% AP con una latenza di 1.62ms, superando YOLOv13-N di +0.8% mAP con un'inferenza più veloce del 17.8%. È degno di nota che i vantaggi siano più pronunciati su scene dense e complesse, mentre il modello preserva l'efficienza su input tipici e mantiene una velocità di inferenza in tempo reale. Il codice sarà reso disponibile.

English

Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.

YOLO-Master: Accelerato da MOE con Transformer Specializzati per il Rilevamento in Tempo Reale Potenziato

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

Abstract

Support