Hibou: Eine Familie von grundlegenden Vision-Transformern für die Pathologie
Hibou: A Family of Foundational Vision Transformers for Pathology
June 7, 2024
Autoren: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Zusammenfassung
Die Pathologie, die mikroskopische Untersuchung von erkranktem Gewebe, ist entscheidend für die Diagnose verschiedener medizinischer Zustände, insbesondere von Krebserkrankungen. Traditionelle Methoden sind arbeitsintensiv und anfällig für menschliche Fehler. Die digitale Pathologie, die Glaspräparate in hochauflösende digitale Bilder umwandelt, die von Computer-Algorithmen analysiert werden, revolutioniert das Feld, indem sie die diagnostische Genauigkeit, Konsistenz und Effizienz durch automatisierte Bildanalyse und die Verarbeitung großer Datenmengen verbessert. Die grundlegende Vorverarbeitung von Transformern ist entscheidend für die Entwicklung robuster, generalisierbarer Modelle, da sie das Lernen aus großen Mengen nicht annotierter Daten ermöglicht.
Dieses Papier stellt die Hibou-Familie von grundlegenden Vision-Transformern für die Pathologie vor, die das DINOv2-Framework nutzen, um zwei Modellvarianten, Hibou-B und Hibou-L, auf einem proprietären Datensatz von über 1 Million ganzen Bildern von Gewebeschnitten zu trainieren, die verschiedene Gewebetypen und Färbetechniken repräsentieren. Unsere vortrainierten Modelle zeigen eine überlegene Leistung sowohl auf Patch-Ebene als auch auf Slide-Ebene und übertreffen bestehende State-of-the-Art-Methoden. Insbesondere erzielt Hibou-L die höchste durchschnittliche Genauigkeit über mehrere Benchmark-Datensätze. Um weitere Forschung und Anwendungen auf diesem Gebiet zu unterstützen, haben wir das Hibou-B-Modell als Open-Source veröffentlicht, das unter folgendem Link abgerufen werden kann: https://github.com/HistAI/hibou
English
Pathology, the microscopic examination of diseased tissue, is critical for
diagnosing various medical conditions, particularly cancers. Traditional
methods are labor-intensive and prone to human error. Digital pathology, which
converts glass slides into high-resolution digital images for analysis by
computer algorithms, revolutionizes the field by enhancing diagnostic accuracy,
consistency, and efficiency through automated image analysis and large-scale
data processing. Foundational transformer pretraining is crucial for developing
robust, generalizable models as it enables learning from vast amounts of
unannotated data.
This paper introduces the Hibou family of foundational vision transformers
for pathology, leveraging the DINOv2 framework to pretrain two model variants,
Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide
images (WSIs) representing diverse tissue types and staining techniques. Our
pretrained models demonstrate superior performance on both patch-level and
slide-level benchmarks, surpassing existing state-of-the-art methods. Notably,
Hibou-L achieves the highest average accuracy across multiple benchmark
datasets. To support further research and application in the field, we have
open-sourced the Hibou-B model, which can be accessed at
https://github.com/HistAI/hibou