ChatPaper.aiChatPaper

YOLO-Master : Accéléré par MOE avec des Transformers Spécialisés pour une Détection en Temps Réel Améliorée

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

December 29, 2025
papers.authors: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu
cs.AI

papers.abstract

Les méthodes existantes de détection d'objets en temps réel (RTOD) adoptent généralement des architectures de type YOLO pour leur compromis favorable entre précision et vitesse. Cependant, ces modèles reposent sur un calcul dense statique qui applique un traitement uniforme à toutes les entrées, ce qui entraîne une mauvaise allocation des capacités de représentation et des ressources computationnelles, comme une sur-allocation sur les scènes triviales et une sous-allocation sur les scènes complexes. Cette inadéquation se traduit à la fois par une redondance computationnelle et des performances de détection sous-optimales. Pour surmonter cette limite, nous proposons YOLO-Master, un nouveau cadre de type YOLO qui introduit un calcul adaptatif conditionnel aux instances pour la RTOD. Ceci est réalisé grâce à un bloc Efficient Sparse Mixture-of-Experts (ES-MoE) qui alloue dynamiquement les ressources computationnelles à chaque entrée en fonction de sa complexité scénique. Au cœur du système, un réseau de routage dynamique léger guide la spécialisation des experts pendant l'entraînement via un objectif d'amélioration de la diversité, encourageant une expertise complémentaire entre les experts. De plus, le réseau de routage apprend de manière adaptive à n'activer que les experts les plus pertinents, améliorant ainsi les performances de détection tout en minimisant la surcharge computationnelle lors de l'inférence. Des expériences complètes sur cinq benchmarks à grande échelle démontrent la supériorité de YOLO-Master. Sur MS COCO, notre modèle atteint 42,4% de AP avec une latence de 1,62 ms, surpassant YOLOv13-N de +0,8% mAP tout en étant 17,8% plus rapide en inférence. Notamment, les gains sont plus prononcés sur les scènes denses complexes, tandis que le modèle préserve son efficacité sur les entrées typiques et maintient une vitesse d'inférence en temps réel. Le code sera rendu public.
English
Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.
PDF71December 31, 2025