Hibou : Une famille de Transformers Visionnaires Fondamentaux pour la Pathologie
Hibou: A Family of Foundational Vision Transformers for Pathology
June 7, 2024
Auteurs: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Résumé
La pathologie, qui consiste en l'examen microscopique des tissus malades, est essentielle pour diagnostiquer diverses conditions médicales, en particulier les cancers. Les méthodes traditionnelles sont laborieuses et sujettes à des erreurs humaines. La pathologie numérique, qui convertit les lames de verre en images numériques haute résolution pour analyse par des algorithmes informatiques, révolutionne ce domaine en améliorant la précision diagnostique, la cohérence et l'efficacité grâce à l'analyse automatisée d'images et au traitement de données à grande échelle. Le pré-entraînement des transformateurs de base est crucial pour développer des modèles robustes et généralisables, car il permet d'apprendre à partir de vastes quantités de données non annotées.
Cet article présente la famille Hibou de transformateurs de vision de base pour la pathologie, en exploitant le cadre DINOv2 pour pré-entraîner deux variantes de modèles, Hibou-B et Hibou-L, sur un ensemble de données propriétaire de plus d'un million d'images de lames entières (WSIs) représentant divers types de tissus et techniques de coloration. Nos modèles pré-entraînés démontrent des performances supérieures sur les benchmarks au niveau des patches et des lames, surpassant les méthodes existantes de pointe. Notamment, Hibou-L atteint la précision moyenne la plus élevée sur plusieurs ensembles de données de référence. Pour soutenir la recherche et les applications dans ce domaine, nous avons rendu open-source le modèle Hibou-B, accessible à l'adresse suivante : https://github.com/HistAI/hibou.
English
Pathology, the microscopic examination of diseased tissue, is critical for
diagnosing various medical conditions, particularly cancers. Traditional
methods are labor-intensive and prone to human error. Digital pathology, which
converts glass slides into high-resolution digital images for analysis by
computer algorithms, revolutionizes the field by enhancing diagnostic accuracy,
consistency, and efficiency through automated image analysis and large-scale
data processing. Foundational transformer pretraining is crucial for developing
robust, generalizable models as it enables learning from vast amounts of
unannotated data.
This paper introduces the Hibou family of foundational vision transformers
for pathology, leveraging the DINOv2 framework to pretrain two model variants,
Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide
images (WSIs) representing diverse tissue types and staining techniques. Our
pretrained models demonstrate superior performance on both patch-level and
slide-level benchmarks, surpassing existing state-of-the-art methods. Notably,
Hibou-L achieves the highest average accuracy across multiple benchmark
datasets. To support further research and application in the field, we have
open-sourced the Hibou-B model, which can be accessed at
https://github.com/HistAI/hibouSummary
AI-Generated Summary