Hepato-LLaVA: Un MLLM Esperto con Attenzione Sparse Topo-Pack per l'Analisi Patologica dell'Epatocarcinoma su Immagini di Interi Vetrini

Abstract

La diagnosi di carcinoma epatocellulare si basa fortemente sull'interpretazione di immagini Whole Slide a risoluzione gigapixel. Tuttavia, gli attuali approcci computazionali sono limitati da meccanismi di elaborazione a risoluzione fissa e da un'aggregazione inefficiente delle caratteristiche, che inevitabilmente portano a una grave perdita di informazioni o a un'elevata ridondanza delle feature. Per affrontare queste sfide, proponiamo Hepato-LLaVA, un modello linguistico multimodale di grandi dimensioni specializzato per l'analisi patologica epatocellulare di fine dettaglio. Introduciamo un nuovo meccanismo di Sparse Topo-Pack Attention che modella esplicitamente la topologia tissutale bidimensionale. Questo meccanismo aggrega efficacemente le evidenze diagnostiche locali in token di riepilogo semantico preservando il contesto globale. Inoltre, per ovviare alla carenza di dati multiscala, presentiamo HepatoPathoVQA, un dataset clinicamente fondato comprendente 33.000 coppie domanda-risposta strutturate gerarchicamente e validate da patologi esperti. I nostri esperimenti dimostrano che Hepato-LLaVA raggiunge prestazioni all'avanguardia nelle attività di diagnosi e descrizione dell'HCC, superando significativamente i metodi esistenti. Il nostro codice e i dettagli implementativi sono disponibili all'indirizzo https://pris-cv.github.io/Hepto-LLaVA/.

English

Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.

Hepato-LLaVA: Un MLLM Esperto con Attenzione Sparse Topo-Pack per l'Analisi Patologica dell'Epatocarcinoma su Immagini di Interi Vetrini

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Abstract

Support