YOLO-Master: Acelerado por MOE com Transformers Especializados para Detecção em Tempo Real Aprimorada

Resumo

Os métodos existentes de detecção de objetos em tempo real (RTOD) geralmente adotam arquiteturas do tipo YOLO devido ao seu favorável equilíbrio entre precisão e velocidade. No entanto, estes modelos dependem de computação densa e estática que aplica processamento uniforme a todas as entradas, alocando mal a capacidade representacional e os recursos computacionais, como a sobre-alocação em cenas triviais e a subutilização em cenas complexas. Esta incompatibilidade resulta em redundância computacional e desempenho de detecção subótimo. Para superar esta limitação, propomos o YOLO-Master, uma nova arquitetura do tipo YOLO que introduz computação adaptativa condicionada à instância para RTOD. Isto é alcançado através de um bloco Efficient Sparse Mixture-of-Experts (ES-MoE) que aloca dinamicamente recursos computacionais para cada entrada de acordo com a complexidade da cena. No seu cerne, uma rede de roteamento dinâmica e leve orienta a especialização dos especialistas durante o treinamento através de um objetivo de aumento da diversidade, incentivando expertise complementar entre os especialistas. Adicionalmente, a rede de roteamento aprende adaptativamente a ativar apenas os especialistas mais relevantes, melhorando assim o desempenho da detecção enquanto minimiza a sobrecarga computacional durante a inferência. Experimentos abrangentes em cinco benchmarks de grande escala demonstram a superioridade do YOLO-Master. No MS COCO, nosso modelo alcança 42,4% AP com latência de 1,62ms, superando o YOLOv13-N em +0,8% mAP e com inferência 17,8% mais rápida. Notavelmente, os ganhos são mais pronunciados em cenas densas e desafiadoras, enquanto o modelo preserva a eficiência em entradas típicas e mantém a velocidade de inferência em tempo real. O código estará disponível.

English

Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.

YOLO-Master: Acelerado por MOE com Transformers Especializados para Detecção em Tempo Real Aprimorada

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

Resumo

Support