Hibou: Семейство базовых видео-трансформеров для патологии
Hibou: A Family of Foundational Vision Transformers for Pathology
June 7, 2024
Авторы: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Аннотация
Патология, микроскопическое исследование пораженной ткани, имеет важное значение для диагностики различных медицинских состояний, особенно рака. Традиционные методы трудоемки и подвержены человеческой ошибке. Цифровая патология, которая преобразует стеклянные слайды в высокоразрешенные цифровые изображения для анализа компьютерными алгоритмами, революционизирует область, улучшая диагностическую точность, последовательность и эффективность через автоматизированный анализ изображений и обработку данных в большом масштабе. Основное предварительное обучение трансформеров имеет решающее значение для разработки надежных, обобщаемых моделей, поскольку оно позволяет изучать огромные объемы неаннотированных данных.
Этот документ представляет семейство основных видов трансформеров Hibou для патологии, используя фреймворк DINOv2 для предварительного обучения двух вариантов моделей, Hibou-B и Hibou-L, на собственном наборе данных из более чем 1 миллиона цельных изображений слайдов, представляющих разнообразные типы тканей и методы окрашивания. Наши предварительно обученные модели демонстрируют превосходную производительность как на уровне участков, так и на уровне слайдов, превосходя существующие передовые методы. Замечательно, что Hibou-L достигает самой высокой средней точности на нескольких наборах данных для сравнения. Для поддержки дальнейших исследований и применения в области мы открыли исходный код модели Hibou-B, который доступен по адресу https://github.com/HistAI/hibou
English
Pathology, the microscopic examination of diseased tissue, is critical for
diagnosing various medical conditions, particularly cancers. Traditional
methods are labor-intensive and prone to human error. Digital pathology, which
converts glass slides into high-resolution digital images for analysis by
computer algorithms, revolutionizes the field by enhancing diagnostic accuracy,
consistency, and efficiency through automated image analysis and large-scale
data processing. Foundational transformer pretraining is crucial for developing
robust, generalizable models as it enables learning from vast amounts of
unannotated data.
This paper introduces the Hibou family of foundational vision transformers
for pathology, leveraging the DINOv2 framework to pretrain two model variants,
Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide
images (WSIs) representing diverse tissue types and staining techniques. Our
pretrained models demonstrate superior performance on both patch-level and
slide-level benchmarks, surpassing existing state-of-the-art methods. Notably,
Hibou-L achieves the highest average accuracy across multiple benchmark
datasets. To support further research and application in the field, we have
open-sourced the Hibou-B model, which can be accessed at
https://github.com/HistAI/hibou