ChatPaper.aiChatPaper

YOLO-Master: Ускоренная архитектурой MOE со специализированными трансформерами для улучшенного детектирования в реальном времени

YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection

December 29, 2025
Авторы: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu
cs.AI

Аннотация

Существующие методы обнаружения объектов в реальном времени (RTOD) обычно используют архитектуры, подобные YOLO, благодаря их благоприятному балансу между точностью и скоростью. Однако эти модели основаны на статичных плотных вычислениях, которые применяют единообразную обработку ко всем входным данным, что приводит к нерациональному распределению репрезентационной мощности и вычислительных ресурсов. Например, ресурсы избыточно выделяются для простых сцен и недостаточно — для сложных. Это несоответствие приводит как к вычислительной избыточности, так и к неоптимальной производительности обнаружения. Для преодоления этого ограничения мы предлагаем YOLO-Master — новую архитектуру, подобную YOLO, которая вводит условно-адаптивные вычисления для каждого экземпляра в RTOD. Это достигается с помощью блока эффективной разреженной смеси экспертов (ES-MoE), который динамически распределяет вычислительные ресурсы для каждого входного изображения в зависимости от сложности сцены. В основе лежит легковесная динамическая маршрутизирующая сеть, которая направляет специализацию экспертов во время обучения с помощью целевой функции, повышающей разнообразие, что способствует формированию комплементарных экспертных знаний. Кроме того, маршрутизирующая сеть адаптивно обучается активировать только наиболее релевантных экспертов, тем самым повышая производительность обнаружения при минимизации вычислительных затрат на этапе inference. Всесторонние эксперименты на пяти крупномасштабных бенчмарках демонстрируют превосходство YOLO-Master. На MS COCO наша модель достигает 42.4% AP с задержкой 1.62 мс, превосходя YOLOv13-N на +0.8% mAP при ускорении inference на 17.8%. Примечательно, что наибольший выигрыш наблюдается на сложных сценах с плотными объектами, в то время как модель сохраняет эффективность на типичных входных данных и поддерживает скорость работы в реальном времени. Код будет доступен.
English
Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.
PDF71December 31, 2025