Hepato-LLaVA : Un MLLM expert avec attention Topo-Pack parcimonieuse pour l'analyse pathologique hépatocellulaire sur images de lame entière

Résumé

Le diagnostic du carcinome hépatocellulaire repose largement sur l'interprétation d'images gigapixels de lames histologiques complètes. Cependant, les approches computationnelles actuelles sont limitées par des mécanismes de traitement à résolution fixe et une agrégation inefficace des caractéristiques, ce qui entraîne inévitablement soit une perte sévère d'information, soit une redondance élevée des features. Pour relever ces défis, nous proposons Hepato-LLaVA, un modèle de langage élargi multimodal spécialisé conçu pour l'analyse fine de la pathologie hépatocellulaire. Nous introduisons un nouveau mécanisme d'attention Sparse Topo-Pack qui modélise explicitement la topologie tissulaire en 2D. Ce mécanisme agrège efficacement les preuves diagnostiques locales en tokens de résumé sémantique tout en préservant le contexte global. Par ailleurs, pour pallier le manque de données multi-échelles, nous présentons HepatoPathoVQA, un jeu de données cliniquement fondé comprenant 33 000 paires question-réponse structurées hiérarchiquement et validées par des anatomopathologistes experts. Nos expériences démontrent qu'Hepato-LLaVA atteint des performances de pointe dans les tâches de diagnostic et de description du CHC, surpassant significativement les méthodes existantes. Notre code et les détails de mise en œuvre sont disponibles à l'adresse https://pris-cv.github.io/Hepto-LLaVA/.

English

Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.

Hepato-LLaVA : Un MLLM expert avec attention Topo-Pack parcimonieuse pour l'analyse pathologique hépatocellulaire sur images de lame entière

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Résumé

Support