ChatPaper.aiChatPaper

YOLO-Master: MOE-beschleunigt mit spezialisierten Transformern für verbesserte Echtzeit-Erkennung

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

December 29, 2025
papers.authors: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu
cs.AI

papers.abstract

Bestehende Echtzeit-Objekterkennungsmethoden (RTOD) nutzen häufig YOLO-ähnliche Architekturen aufgrund ihrer günstigen Balance zwischen Genauigkeit und Geschwindigkeit. Diese Modelle basieren jedoch auf statischer, dichter Berechnung, die alle Eingaben einheitlich verarbeitet, was zu einer Fehlverteilung von Repräsentationskapazität und Rechenressourcen führt – beispielsweise durch Überversorgung trivialer Szenen und Unterversorgung komplexer Szenen. Diese Diskrepanz resultiert sowohl in Rechenredundanz als auch in suboptimaler Erkennungsleistung. Um diese Einschränkung zu überwinden, schlagen wir YOLO-Master vor, ein neuartiges YOLO-ähnliches Framework, das instanzenkonditionierte adaptive Berechnung für RTOD einführt. Dies wird durch einen Efficient Sparse Mixture-of-Experts (ES-MoE)-Block erreicht, der Rechenressourcen dynamisch entsprechend der Szenenkomplexität jeder Eingabe zuweist. Kernstück ist ein leichtgewichtiges dynamisches Routing-Netzwerk, das während des Trainings durch ein Diversitätsziel die Expertenspezialisierung steuert und komplementäre Expertise unter den Experten fördert. Zudem lernt das Routing-Netzwerk adaptiv, nur die relevantesten Experten zu aktivieren, wodurch die Erkennungsleistung verbessert und der Rechenaufwand während der Inferenz minimiert wird. Umfassende Experimente auf fünf großen Benchmarks demonstrieren die Überlegenheit von YOLO-Master. Auf MS COCO erreicht unser Modell 42,4 % AP bei 1,62 ms Latenz und übertrifft YOLOv13-N um +0,8 % mAP bei 17,8 % schnellerer Inferenz. Besonders ausgeprägt sind die Verbesserungen in anspruchsvollen dichten Szenen, während das Modell Effizienz bei typischen Eingaben bewahrt und Echtzeit-Inferenzgeschwindigkeit beibehält. Der Code wird verfügbar sein.
English
Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.
PDF71December 31, 2025