Echtzeit-Objekterkennung trifft auf DINOv3

papers.abstract

Dank der Einfachheit und Effektivität von Dense O2O und MAL hat sich DEIM als das vorherrschende Trainingsframework für Echtzeit-DETRs etabliert und übertrifft die YOLO-Serie deutlich. In dieser Arbeit erweitern wir es mit DINOv3-Features, was zu DEIMv2 führt. DEIMv2 umfasst acht Modellgrößen von X bis Atto und deckt GPU-, Edge- und Mobile-Bereitstellungen ab. Für die Varianten X, L, M und S verwenden wir DINOv3-vortrainierte oder destillierte Backbones und führen einen Spatial Tuning Adapter (STA) ein, der die einstufige Ausgabe von DINOv3 effizient in mehrstufige Features umwandelt und starke Semantik mit feinkörnigen Details ergänzt, um die Erkennung zu verbessern. Für ultraleichte Modelle (Nano, Pico, Femto und Atto) setzen wir HGNetv2 mit Tiefen- und Breitenbeschneidung ein, um strenge Ressourcenbudgets einzuhalten. Zusammen mit einem vereinfachten Decoder und einem verbesserten Dense O2O ermöglicht dieses einheitliche Design DEIMv2, eine überlegene Leistungs-Kosten-Balance in verschiedenen Szenarien zu erreichen und neue State-of-the-Art-Ergebnisse zu etablieren. Bemerkenswerterweise erreicht unser größtes Modell, DEIMv2-X, 57,8 AP mit nur 50,3 Millionen Parametern und übertrifft damit frühere X-Modelle, die über 60 Millionen Parameter für lediglich 56,5 AP benötigen. Auf der kompakten Seite ist DEIMv2-S das erste Modell mit weniger als 10 Millionen Parametern (9,71 Millionen), das die 50-AP-Marke auf COCO überschreitet und 50,9 AP erreicht. Selbst das ultraleichte DEIMv2-Pico mit nur 1,5 Millionen Parametern liefert 38,5 AP und entspricht damit YOLOv10-Nano (2,3 Millionen) mit etwa 50 Prozent weniger Parametern. Unser Code und vortrainierte Modelle sind unter https://github.com/Intellindust-AI-Lab/DEIMv2 verfügbar.

English

Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2

Echtzeit-Objekterkennung trifft auf DINOv3

Real-Time Object Detection Meets DINOv3

papers.abstract

Support