Hepato-LLaVA: Un MLLM Experto con Atención Topo-Pack Dispersa para el Análisis Patológico Hepatocelular en Imágenes de Muestras Completas
Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images
February 23, 2026
Autores: Yuxuan Yang, Zhonghao Yan, Yi Zhang, Bo Yun, Muxi Diao, Guowei Zhao, Kongming Liang, Wenbin Li, Zhanyu Ma
cs.AI
Resumen
El diagnóstico del carcinoma hepatocelular depende en gran medida de la interpretación de imágenes de muestras completas (Whole Slide Images) de resolución gigapíxel. Sin embargo, los enfoques computacionales actuales están limitados por mecanismos de procesamiento de resolución fija y una agregación de características ineficiente, lo que inevitablemente conduce a una grave pérdida de información o a una alta redundancia de características. Para abordar estos desafíos, proponemos Hepato-LLaVA, un Modelo de Lenguaje Grande Multimodal especializado diseñado para el análisis patológico hepático de grano fino. Introducimos un novedoso mecanismo de Atención Topo-Pack Escasa que modela explícitamente la topología tisular bidimensional. Este mecanismo agrega eficazmente la evidencia diagnóstica local en tokens de resumen semántico, preservando al mismo tiempo el contexto global. Además, para superar la falta de datos multiescala, presentamos HepatoPathoVQA, un conjunto de datos basado en la práctica clínica que comprende 33K pares de preguntas y respuestas estructuradas jerárquicamente y validadas por patólogos expertos. Nuestros experimentos demuestran que Hepato-LLaVA logra un rendimiento de vanguardia en las tareas de diagnóstico y descripción (captioning) del CHC, superando significativamente a los métodos existentes. Nuestro código y detalles de implementación están disponibles en https://pris-cv.github.io/Hepto-LLaVA/.
English
Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.