AtlasPatch: Una Herramienta Eficiente y Escalable para el Preprocesamiento de Imágenes de Muestras Complejas en Patología Computacional

Resumen

El preprocesamiento de imágenes de portaobjetos completos (WSI), que generalmente comprende la detección de tejido seguida de la extracción de parches, es fundamental para los flujos de trabajo de patología computacional impulsada por IA. Este proceso sigue siendo un cuello de botella computacional importante, ya que las herramientas existentes dependen de umbralización heurística imprecisa para la detección de tejido o adoptan enfoques basados en IA entrenados con datos de diversidad limitada que operan a nivel de parche, incurriendo en una complejidad computacional sustancial. Presentamos AtlasPatch, un marco de preprocesamiento de portaobjetos eficiente y escalable para la detección precisa de tejido y la extracción de parches de alto rendimiento con una sobrecarga computacional mínima. El módulo de detección de tejido de AtlasPatch se entrenó en un conjunto de datos heterogéneo y semi-manualmente anotado de ~30,000 miniaturas de WSI, utilizando el ajuste fino eficiente del modelo Segment-Anything. La herramienta extrapola las máscaras de tejido desde las miniaturas a las imágenes de resolución completa para extraer coordenadas de parches a magnificaciones especificadas por el usuario, con opciones para transmitir los parches directamente a codificadores de imágenes comunes para incrustación o almacenar las imágenes de parches, todo eficientemente paralelizado entre CPU y GPU. Evaluamos AtlasPatch en cuanto a precisión de segmentación, complejidad computacional y aprendizaje de múltiples instancias en aplicaciones posteriores, igualando el rendimiento de vanguardia mientras opera a una fracción de su costo computacional. AtlasPatch es de código abierto y está disponible en https://github.com/AtlasAnalyticsLab/AtlasPatch.

English

Whole-slide image (WSI) preprocessing, typically comprising tissue detection followed by patch extraction, is foundational to AI-driven computational pathology workflows. This remains a major computational bottleneck as existing tools either rely on inaccurate heuristic thresholding for tissue detection, or adopt AI-based approaches trained on limited-diversity data that operate at the patch level, incurring substantial computational complexity. We present AtlasPatch, an efficient and scalable slide preprocessing framework for accurate tissue detection and high-throughput patch extraction with minimal computational overhead. AtlasPatch's tissue detection module is trained on a heterogeneous and semi-manually annotated dataset of ~30,000 WSI thumbnails, using efficient fine-tuning of the Segment-Anything model. The tool extrapolates tissue masks from thumbnails to full-resolution slides to extract patch coordinates at user-specified magnifications, with options to stream patches directly into common image encoders for embedding or store patch images, all efficiently parallelized across CPUs and GPUs. We assess AtlasPatch across segmentation precision, computational complexity, and downstream multiple-instance learning, matching state-of-the-art performance while operating at a fraction of their computational cost. AtlasPatch is open-source and available at https://github.com/AtlasAnalyticsLab/AtlasPatch.