Echtzeit-Objekterkennung trifft auf DINOv3
Real-Time Object Detection Meets DINOv3
September 25, 2025
papers.authors: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI
papers.abstract
Dank der Einfachheit und Effektivität von Dense O2O und MAL hat sich DEIM
als das vorherrschende Trainingsframework für Echtzeit-DETRs etabliert und
übertrifft die YOLO-Serie deutlich. In dieser Arbeit erweitern wir es mit
DINOv3-Features, was zu DEIMv2 führt. DEIMv2 umfasst acht Modellgrößen von X
bis Atto und deckt GPU-, Edge- und Mobile-Bereitstellungen ab. Für die Varianten
X, L, M und S verwenden wir DINOv3-vortrainierte oder destillierte Backbones
und führen einen Spatial Tuning Adapter (STA) ein, der die einstufige Ausgabe
von DINOv3 effizient in mehrstufige Features umwandelt und starke Semantik mit
feinkörnigen Details ergänzt, um die Erkennung zu verbessern. Für ultraleichte
Modelle (Nano, Pico, Femto und Atto) setzen wir HGNetv2 mit Tiefen- und
Breitenbeschneidung ein, um strenge Ressourcenbudgets einzuhalten. Zusammen mit
einem vereinfachten Decoder und einem verbesserten Dense O2O ermöglicht dieses
einheitliche Design DEIMv2, eine überlegene Leistungs-Kosten-Balance in
verschiedenen Szenarien zu erreichen und neue State-of-the-Art-Ergebnisse zu
etablieren. Bemerkenswerterweise erreicht unser größtes Modell, DEIMv2-X, 57,8
AP mit nur 50,3 Millionen Parametern und übertrifft damit frühere X-Modelle, die
über 60 Millionen Parameter für lediglich 56,5 AP benötigen. Auf der kompakten
Seite ist DEIMv2-S das erste Modell mit weniger als 10 Millionen Parametern
(9,71 Millionen), das die 50-AP-Marke auf COCO überschreitet und 50,9 AP
erreicht. Selbst das ultraleichte DEIMv2-Pico mit nur 1,5 Millionen Parametern
liefert 38,5 AP und entspricht damit YOLOv10-Nano (2,3 Millionen) mit etwa 50
Prozent weniger Parametern. Unser Code und vortrainierte Modelle sind unter
https://github.com/Intellindust-AI-Lab/DEIMv2 verfügbar.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM
has become the mainstream training framework for real-time DETRs, significantly
outperforming the YOLO series. In this work, we extend it with DINOv3 features,
resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering
GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt
DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter
(STA), which efficiently converts DINOv3's single-scale output into multi-scale
features and complements strong semantics with fine-grained details to enhance
detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we
employ HGNetv2 with depth and width pruning to meet strict resource budgets.
Together with a simplified decoder and an upgraded Dense O2O, this unified
design enables DEIMv2 to achieve a superior performance-cost trade-off across
diverse scenarios, establishing new state-of-the-art results. Notably, our
largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters,
surpassing prior X-scale models that require over 60 million parameters for
just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model
(9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even
the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers
38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer
parameters. Our code and pre-trained models are available at
https://github.com/Intellindust-AI-Lab/DEIMv2