Hibou: Una famiglia di Vision Transformer fondamentali per la patologia
Hibou: A Family of Foundational Vision Transformers for Pathology
June 7, 2024
Autori: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Abstract
La patologia, l'esame microscopico dei tessuti malati, è fondamentale per diagnosticare varie condizioni mediche, in particolare i tumori. I metodi tradizionali sono laboriosi e soggetti a errori umani. La patologia digitale, che converte i vetrini in immagini digitali ad alta risoluzione per l'analisi mediante algoritmi informatici, rivoluziona il settore migliorando l'accuratezza diagnostica, la consistenza e l'efficienza attraverso l'analisi automatizzata delle immagini e l'elaborazione su larga scala dei dati. Il pretraining con modelli transformer di base è cruciale per sviluppare modelli robusti e generalizzabili, poiché consente l'apprendimento da grandi quantità di dati non annotati.
Questo articolo presenta la famiglia Hibou di vision transformer di base per la patologia, sfruttando il framework DINOv2 per effettuare il pretraining di due varianti del modello, Hibou-B e Hibou-L, su un dataset proprietario di oltre 1 milione di immagini di interi vetrini (WSI) che rappresentano diversi tipi di tessuto e tecniche di colorazione. I nostri modelli pretrainati dimostrano prestazioni superiori sia nei benchmark a livello di patch che di vetrino, superando i metodi state-of-the-art esistenti. In particolare, Hibou-L raggiunge la più alta accuratezza media su più dataset di benchmark. Per supportare ulteriori ricerche e applicazioni nel campo, abbiamo reso open-source il modello Hibou-B, accessibile all'indirizzo https://github.com/HistAI/hibou.
English
Pathology, the microscopic examination of diseased tissue, is critical for
diagnosing various medical conditions, particularly cancers. Traditional
methods are labor-intensive and prone to human error. Digital pathology, which
converts glass slides into high-resolution digital images for analysis by
computer algorithms, revolutionizes the field by enhancing diagnostic accuracy,
consistency, and efficiency through automated image analysis and large-scale
data processing. Foundational transformer pretraining is crucial for developing
robust, generalizable models as it enables learning from vast amounts of
unannotated data.
This paper introduces the Hibou family of foundational vision transformers
for pathology, leveraging the DINOv2 framework to pretrain two model variants,
Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide
images (WSIs) representing diverse tissue types and staining techniques. Our
pretrained models demonstrate superior performance on both patch-level and
slide-level benchmarks, surpassing existing state-of-the-art methods. Notably,
Hibou-L achieves the highest average accuracy across multiple benchmark
datasets. To support further research and application in the field, we have
open-sourced the Hibou-B model, which can be accessed at
https://github.com/HistAI/hibou