ChatPaper.aiChatPaper

YOLO-Master: Versneld door Mixture of Experts met Gespecialiseerde Transformers voor Verbeterde Real-time Detectie

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

December 29, 2025
Auteurs: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu
cs.AI

Samenvatting

Bestaande methoden voor real-time objectdetectie (RTOD) maken doorgaans gebruik van YOLO-achtige architecturen vanwege hun gunstige afweging tussen nauwkeurigheid en snelheid. Deze modellen zijn echter gebaseerd op statische, dichte berekeningen die uniforme verwerking toepassen op alle invoeren, wat leidt tot een verkeerde toewijzing van representatiecapaciteit en rekenbronnen. Hierdoor wordt er bijvoorbeeld te veel capaciteit toegewezen aan triviale scènes en te weinig aan complexe scènes. Deze mismatch resulteert in zowel computationele redundantie als suboptimale detectieprestaties. Om deze beperking te overwinnen, stellen we YOLO-Master voor, een nieuw YOLO-achtig framework dat instance-conditional adaptieve berekeningen introduceert voor RTOD. Dit wordt gerealiseerd door een Efficient Sparse Mixture-of-Experts (ES-MoE) blok dat dynamisch rekenbronnen toewijst aan elke invoer op basis van de complexiteit van de scène. Kern van de methode is een lichtgewicht dynamisch routeringsnetwerk dat tijdens de training expertspecialisatie aanstuurt via een doelstelling die diversiteit bevordert, waardoor complementaire expertise tussen experts wordt gestimuleerd. Daarnaast leert het routeringsnetwerk adaptief om alleen de meest relevante experts te activeren, waardoor de detectieprestaties verbeteren terwijl de computationele overhead tijdens inferentie wordt geminimaliseerd. Uitgebreide experimenten op vijf grootschalige benchmarks tonen de superioriteit van YOLO-Master aan. Op MS COCO behaalt ons model 42.4% AP met een latentie van 1.62ms, wat YOLOv13-N overtreft met +0.8% mAP en 17.8% snellere inferentie. Opvallend is dat de winst het grootst is op uitdagende, dichte scènes, terwijl het model efficiënt blijft op typische invoeren en real-time inferentiesnelheid behoudt. De code zal beschikbaar worden gesteld.
English
Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.
PDF71December 31, 2025