YOLO-Master: 전문 트랜스포머 기반 MOE 가속화를 통한 고성능 실시간 객체 인식
YOLO-Master: MOE-Accelerated with Specialized Transformers for Enhanced Real-time Detection
December 29, 2025
저자: Xu Lin, Jinlong Peng, Zhenye Gan, Jiawen Zhu, Jun Liu
cs.AI
초록
기존 실시간 객체 탐지(RTOD) 방법은 일반적으로 정확도와 속도 간의 유리한 균형을 위해 YOLO 유사 아키텍처를 채택합니다. 그러나 이러한 모델들은 모든 입력에 균일한 처리를 적용하는 정적 밀집 계산에 의존하여, 사소한 장면에는 과도하게 할당하고 복잡한 장면에는 충분히 대응하지 못하는 등 표현 능력과 계산 자원의 비효율적인 할당을 초래합니다. 이러한 불일치는 계산적 중복과 차선책의 탐지 성능을 동시에 야기합니다. 이러한 한계를 극복하기 위해 본 연구에서는 RTOD를 위한 인스턴스 조건부 적응형 계산을 도입한 새로운 YOLO 유사 프레임워크인 YOLO-Master를 제안합니다. 이는 장면 복잡도에 따라 각 입력에 계산 자원을 동적으로 할당하는 효율적 희소 전문가 혼합(ES-MoE) 블록을 통해 구현됩니다. 핵심적으로, 경량 동적 라우팅 네트워크는 다양성 증대 목표를 통해 학습 중 전문가의 전문화를 유도하여 전문가 간 상호 보완적 전문성을 촉진합니다. 추가적으로 라우팅 네트워크는 가장 관련성 높은 전문가만 선택적으로 활성화하는 방법을 적응적으로 학습함으로써, 추론 시 계산 오버헤드를 최소화하면서 탐지 성능을 향상시킵니다. 5가지 대규모 벤치마크에 대한 포괄적 실험을 통해 YOLO-Master의 우수성을 입증했습니다. MS COCO에서 우리 모델은 1.62ms의 지연 시간으로 42.4% AP를 달성하여 YOLOv13-N 대비 +0.8% mAP 향상 및 17.8% 더 빠른 추론 속도를 보였습니다. 특히, 어려운 고밀도 장면에서 성능 향상이 두드러지며, 일반적인 입력에 대해서는 효율성을 유지하고 실시간 추론 속도를 유지합니다. 코드는 공개될 예정입니다.
English
Existing Real-Time Object Detection (RTOD) methods commonly adopt YOLO-like architectures for their favorable trade-off between accuracy and speed. However, these models rely on static dense computation that applies uniform processing to all inputs, misallocating representational capacity and computational resources such as over-allocating on trivial scenes while under-serving complex ones. This mismatch results in both computational redundancy and suboptimal detection performance. To overcome this limitation, we propose YOLO-Master, a novel YOLO-like framework that introduces instance-conditional adaptive computation for RTOD. This is achieved through a Efficient Sparse Mixture-of-Experts (ES-MoE) block that dynamically allocates computational resources to each input according to its scene complexity. At its core, a lightweight dynamic routing network guides expert specialization during training through a diversity enhancing objective, encouraging complementary expertise among experts. Additionally, the routing network adaptively learns to activate only the most relevant experts, thereby improving detection performance while minimizing computational overhead during inference. Comprehensive experiments on five large-scale benchmarks demonstrate the superiority of YOLO-Master. On MS COCO, our model achieves 42.4% AP with 1.62ms latency, outperforming YOLOv13-N by +0.8% mAP and 17.8% faster inference. Notably, the gains are most pronounced on challenging dense scenes, while the model preserves efficiency on typical inputs and maintains real-time inference speed. Code will be available.