ChatPaper.aiChatPaper

Ultralytics YOLO26: Modelos de Visión Unificados en Tiempo Real de Extremo a Extremo

Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

June 2, 2026
Autores: Glenn Jocher, Jing Qiu, Mengyu Liu, Shuai Lyu, Fatih Cagatay Akyon, Muhammet Esat Kalfaoglu
cs.AI

Resumen

La visión en tiempo real exige modelos que sean precisos, eficientes y fáciles de implementar en diversos hardware. La familia YOLO se ha desplegado ampliamente por esta razón, sin embargo, la mayoría de los detectores YOLO aún dependen de la supresión de no máximos (NMS) durante la inferencia, llevan cabezales de detección pesados debido a la Pérdida Focal de Distribución (DFL), requieren largos programas de entrenamiento y pueden dejar a los objetos más pequeños sin asignaciones de etiquetas positivas. Presentamos Ultralytics YOLO26, una familia unificada de modelos de visión en tiempo real que aborda estas limitaciones mediante avances coordinados en arquitectura y entrenamiento. YOLO26 utiliza un diseño de cabezal dual para inferencia nativa de extremo a extremo sin NMS y elimina por completo la DFL, resultando en un cabezal más ligero con un rango de regresión sin restricciones. Su pipeline de entrenamiento combina MuSGD, un optimizador híbrido Muon-SGD adaptado del entrenamiento de modelos de lenguaje grandes; Progressive Loss, que desplaza la supervisión hacia el cabezal de inferencia; y STAL, una estrategia de asignación de etiquetas que garantiza cobertura positiva para objetos pequeños. Más allá de la detección, YOLO26 introduce diseños de cabezal y pérdida específicos para tareas de segmentación de instancias, estimación de pose y detección orientada, produciendo mejoras consistentes en tareas y escalas. La familia abarca cinco escalas (n/s/m/l/x) y admite detección, segmentación de instancias, estimación de pose, clasificación y detección orientada en un solo pipeline, con una extensión de vocabulario abierto, YOLOE-26, para inferencia sin texto, visual ni prompts. En todas las escalas, YOLO26 alcanza 40.9-57.5 mAP en COCO con una latencia de 1.7-11.8 ms en T4 TensorRT, avanzando la frontera de precisión-latencia frente a detectores en tiempo real anteriores, mientras que YOLOE-26x alcanza 40.6 AP en LVIS minival bajo prompting textual. El código y los modelos están disponibles en https://github.com/ultralytics/ultralytics.
English
Real-time vision demands models that are accurate, efficient, and simple to deploy across diverse hardware. The YOLO family has become widely deployed for this reason, yet most YOLO detectors still rely on non-maximum suppression at inference, carry heavy detection heads due to Distribution Focal Loss, require long training schedules, and can leave the smallest objects without positive label assignments. We present Ultralytics YOLO26, a unified real-time vision model family that addresses these limitations through coordinated architecture and training advances. YOLO26 uses a dual-head design for native NMS-free end-to-end inference and removes DFL entirely, yielding a lighter head with unconstrained regression range. Its training pipeline combines MuSGD, a hybrid Muon-SGD optimizer adapted from large language model training; Progressive Loss, which shifts supervision toward the inference-time head; and STAL, a label assignment strategy that guarantees positive coverage for small objects. Beyond detection, YOLO26 introduces task-specific head and loss designs for instance segmentation, pose estimation, and oriented detection, producing consistent gains across tasks and scales. The family spans five scales (n/s/m/l/x) and supports detection, instance segmentation, pose estimation, classification, and oriented detection in a single pipeline, with an open-vocabulary extension, YOLOE-26, for text-, visual-, and prompt-free inference. Across all scales, YOLO26 achieves 40.9-57.5 mAP on COCO at 1.7-11.8 ms T4 TensorRT latency, advancing the accuracy-latency Pareto front over prior real-time detectors, while YOLOE-26x reaches 40.6 AP on LVIS minival under text prompting. Code and models are available at https://github.com/ultralytics/ultralytics.