Hepato-LLaVA: Um MLLM Especialista com Atenção Topo-Pack Esparsa para Análise de Patologia Hepatocelular em Imagens de Lâmina Completa

Resumo

O diagnóstico do Carcinoma Hepatocelular depende fortemente da interpretação de Imagens de Lâmina Completa em escala de gigapixels. No entanto, as abordagens computacionais atuais são limitadas por mecanismos de processamento de resolução fixa e agregação ineficiente de características, o que inevitavelmente leva a uma grave perda de informação ou a uma alta redundância de *features*. Para enfrentar esses desafios, propomos o Hepato-LLaVA, um Modelo de Linguagem Grande Multimodal especializado, projetado para análise patológica hepática de granularidade fina. Introduzimos um novo mecanismo de Atenção por Pacote Topológico Esparsificado que modela explicitamente a topologia tissular bidimensional. Este mecanismo agrega eficazmente evidências diagnósticas locais em *tokens* de resumo semântico, preservando ao mesmo tempo o contexto global. Adicionalmente, para superar a carência de dados em múltiplas escalas, apresentamos o HepatoPathoVQA, um conjunto de dados clinicamente fundamentado que compreende 33 mil pares de perguntas e respostas hierarquicamente estruturados, validados por patologistas especialistas. Nossos experimentos demonstram que o Hepato-LLaVA atinge um desempenho de ponta em tarefas de diagnóstico e descrição de CHC, superando significativamente os métodos existentes. Nosso código e detalhes de implementação estão disponíveis em https://pris-cv.github.io/Hepto-LLaVA/.

English

Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.