ChatPaper.aiChatPaper

EfficientViT-SAM: Beschleunigtes Segment-Anything-Modell ohne Leistungseinbußen

EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss

February 7, 2024
Autoren: Zhuoyang Zhang, Han Cai, Song Han
cs.AI

Zusammenfassung

Wir stellen EfficientViT-SAM vor, eine neue Familie von beschleunigten Segment-Anything-Modellen. Wir behalten den leichten Prompt-Encoder und Mask-Decoder von SAM bei, ersetzen jedoch den rechenintensiven Bild-Encoder durch EfficientViT. Für das Training beginnen wir mit der Wissensdestillation vom SAM-ViT-H-Bild-Encoder zu EfficientViT. Anschließend führen wir ein End-to-End-Training auf dem SA-1B-Datensatz durch. Dank der Effizienz und Kapazität von EfficientViT bietet EfficientViT-SAM eine gemessene TensorRT-Beschleunigung von 48,9x auf der A100-GPU im Vergleich zu SAM-ViT-H, ohne dabei an Leistung einzubüßen. Unser Code und die vortrainierten Modelle sind unter https://github.com/mit-han-lab/efficientvit verfügbar.
English
We present EfficientViT-SAM, a new family of accelerated segment anything models. We retain SAM's lightweight prompt encoder and mask decoder while replacing the heavy image encoder with EfficientViT. For the training, we begin with the knowledge distillation from the SAM-ViT-H image encoder to EfficientViT. Subsequently, we conduct end-to-end training on the SA-1B dataset. Benefiting from EfficientViT's efficiency and capacity, EfficientViT-SAM delivers 48.9x measured TensorRT speedup on A100 GPU over SAM-ViT-H without sacrificing performance. Our code and pre-trained models are released at https://github.com/mit-han-lab/efficientvit.
PDF231December 15, 2024