Hepato-LLaVA: Ein spezialisiertes multimodales Großsprachmodell mit sparser Topo-Pack-Attention für die hepatologische Pathologieanalyse auf Vollpräparat-Scans

Zusammenfassung

Die Diagnose von hepatozellulären Karzinomen stützt sich maßgeblich auf die Interpretation von Gigapixel-Ganzpräparatescans. Allerdings sind aktuelle computergestützte Ansätze durch feste Auflösungsverarbeitungsmechanismen und ineffiziente Feature-Aggregation eingeschränkt, was unweigerlich zu erheblichem Informationsverlust oder hoher Feature-Redundanz führt. Um diese Herausforderungen zu bewältigen, stellen wir Hepato-LLaVA vor, ein spezialisiertes multimodales Großsprachmodell für die feingranulare Analyse hepatischer Pathologie. Wir führen einen neuartigen Sparse Topo-Pack Attention-Mechanismus ein, der explizit die 2D-Gewebetopologie modelliert. Dieser Mechanismus aggregiert lokale diagnostische Evidenz effektiv zu semantischen Zusammenfassungstokens, während der globale Kontext erhalten bleibt. Darüber hinaus präsentieren wir zur Überwindung des Mangels an multiskaligen Daten HepatoPathoVQA, einen klinisch fundierten Datensatz mit 33.000 hierarchisch strukturierten Frage-Antwort-Paaren, die von Expertopathologen validiert wurden. Unsere Experimente zeigen, dass Hepato-LLaVA bei HCC-Diagnose- und Beschreibungsaufgaben state-of-the-art-Leistungen erzielt und bestehende Methoden signifikant übertrifft. Unser Code und Implementierungsdetails sind unter https://pris-cv.github.io/Hepto-LLaVA/ verfügbar.

English

Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.

Hepato-LLaVA: Ein spezialisiertes multimodales Großsprachmodell mit sparser Topo-Pack-Attention für die hepatologische Pathologieanalyse auf Vollpräparat-Scans

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Zusammenfassung

Support