Hibou: Una familia de Transformers de Visión fundamentales para Patología
Hibou: A Family of Foundational Vision Transformers for Pathology
June 7, 2024
Autores: Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
cs.AI
Resumen
La patología, el examen microscópico de tejidos enfermos, es fundamental para diagnosticar diversas afecciones médicas, en particular los cánceres. Los métodos tradicionales son laboriosos y propensos a errores humanos. La patología digital, que convierte las láminas de vidrio en imágenes digitales de alta resolución para su análisis mediante algoritmos informáticos, revoluciona el campo al mejorar la precisión, consistencia y eficiencia diagnósticas a través del análisis automatizado de imágenes y el procesamiento de datos a gran escala. El preentrenamiento de transformadores fundamentales es crucial para desarrollar modelos robustos y generalizables, ya que permite aprender a partir de grandes cantidades de datos no anotados.
Este artículo presenta la familia Hibou de transformadores de visión fundamentales para patología, aprovechando el marco DINOv2 para preentrenar dos variantes de modelos, Hibou-B e Hibou-L, en un conjunto de datos propietario de más de 1 millón de imágenes de láminas completas (WSIs) que representan diversos tipos de tejidos y técnicas de tinción. Nuestros modelos preentrenados demuestran un rendimiento superior en puntos de referencia tanto a nivel de parche como de lámina, superando los métodos existentes más avanzados. En particular, Hibou-L logra la mayor precisión promedio en múltiples conjuntos de datos de referencia. Para apoyar la investigación y aplicación adicional en el campo, hemos liberado el modelo Hibou-B, que puede accederse en https://github.com/HistAI/hibou.
English
Pathology, the microscopic examination of diseased tissue, is critical for
diagnosing various medical conditions, particularly cancers. Traditional
methods are labor-intensive and prone to human error. Digital pathology, which
converts glass slides into high-resolution digital images for analysis by
computer algorithms, revolutionizes the field by enhancing diagnostic accuracy,
consistency, and efficiency through automated image analysis and large-scale
data processing. Foundational transformer pretraining is crucial for developing
robust, generalizable models as it enables learning from vast amounts of
unannotated data.
This paper introduces the Hibou family of foundational vision transformers
for pathology, leveraging the DINOv2 framework to pretrain two model variants,
Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide
images (WSIs) representing diverse tissue types and staining techniques. Our
pretrained models demonstrate superior performance on both patch-level and
slide-level benchmarks, surpassing existing state-of-the-art methods. Notably,
Hibou-L achieves the highest average accuracy across multiple benchmark
datasets. To support further research and application in the field, we have
open-sourced the Hibou-B model, which can be accessed at
https://github.com/HistAI/hibou