Hibou : Une famille de Transformers Visionnaires Fondamentaux pour la Pathologie

Résumé

La pathologie, qui consiste en l'examen microscopique des tissus malades, est essentielle pour diagnostiquer diverses conditions médicales, en particulier les cancers. Les méthodes traditionnelles sont laborieuses et sujettes à des erreurs humaines. La pathologie numérique, qui convertit les lames de verre en images numériques haute résolution pour analyse par des algorithmes informatiques, révolutionne ce domaine en améliorant la précision diagnostique, la cohérence et l'efficacité grâce à l'analyse automatisée d'images et au traitement de données à grande échelle. Le pré-entraînement des transformateurs de base est crucial pour développer des modèles robustes et généralisables, car il permet d'apprendre à partir de vastes quantités de données non annotées. Cet article présente la famille Hibou de transformateurs de vision de base pour la pathologie, en exploitant le cadre DINOv2 pour pré-entraîner deux variantes de modèles, Hibou-B et Hibou-L, sur un ensemble de données propriétaire de plus d'un million d'images de lames entières (WSIs) représentant divers types de tissus et techniques de coloration. Nos modèles pré-entraînés démontrent des performances supérieures sur les benchmarks au niveau des patches et des lames, surpassant les méthodes existantes de pointe. Notamment, Hibou-L atteint la précision moyenne la plus élevée sur plusieurs ensembles de données de référence. Pour soutenir la recherche et les applications dans ce domaine, nous avons rendu open-source le modèle Hibou-B, accessible à l'adresse suivante : https://github.com/HistAI/hibou.

English

Pathology, the microscopic examination of diseased tissue, is critical for diagnosing various medical conditions, particularly cancers. Traditional methods are labor-intensive and prone to human error. Digital pathology, which converts glass slides into high-resolution digital images for analysis by computer algorithms, revolutionizes the field by enhancing diagnostic accuracy, consistency, and efficiency through automated image analysis and large-scale data processing. Foundational transformer pretraining is crucial for developing robust, generalizable models as it enables learning from vast amounts of unannotated data. This paper introduces the Hibou family of foundational vision transformers for pathology, leveraging the DINOv2 framework to pretrain two model variants, Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide images (WSIs) representing diverse tissue types and staining techniques. Our pretrained models demonstrate superior performance on both patch-level and slide-level benchmarks, surpassing existing state-of-the-art methods. Notably, Hibou-L achieves the highest average accuracy across multiple benchmark datasets. To support further research and application in the field, we have open-sourced the Hibou-B model, which can be accessed at https://github.com/HistAI/hibou

Hibou : Une famille de Transformers Visionnaires Fondamentaux pour la Pathologie

Hibou: A Family of Foundational Vision Transformers for Pathology

Résumé

Summary

Support

Support