Hepato-LLaVA: Экспертная MLLM с разреженной топо-пакетной вниманием для анализа гепатоцеллюлярной патологии на изображениях целых срезов

Аннотация

Диагностика гепатоцеллюлярной карциномы в значительной степени основана на интерпретации гигапиксельных изображений целых срезов. Однако современные вычислительные подходы ограничены механизмами обработки с фиксированным разрешением и неэффективной агрегацией признаков, что неизбежно приводит либо к значительной потере информации, либо к высокой избыточности признаков. Для решения этих проблем мы предлагаем Hepato-LLaVA — специализированную мультимодальную большую языковую модель, предназначенную для тонкого анализа патологии печени. Мы представляем новый механизм разреженного топо-пакетированного внимания, который явно моделирует двумерную топологию ткани. Этот механизм эффективно агрегирует локальные диагностические признаки в семантические суммаризирующие токены, сохраняя при этом глобальный контекст. Кроме того, чтобы преодолеть нехватку мультимасштабных данных, мы представляем HepatoPathoVQA — клинически обоснованный набор данных, содержащий 33 тыс. иерархически структурированных вопросно-ответных пар, валидированных экспертами-патологами. Наши эксперименты демонстрируют, что Hepato-LLaVA достигает передовых результатов в задачах диагностики и описания ГЦК, значительно превосходя существующие методы. Наш код и детали реализации доступны по адресу https://pris-cv.github.io/Hepto-LLaVA/.

English

Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.

Hepato-LLaVA: Экспертная MLLM с разреженной топо-пакетной вниманием для анализа гепатоцеллюлярной патологии на изображениях целых срезов

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Аннотация

Support