ChatPaper.aiChatPaper

Lier la biologie spatiale et l'histologie clinique via Haiku

Linking spatial biology and clinical histology via Haiku

April 30, 2026
Auteurs: Yan Cui, Jacob S. Leiby, Wenhui Lei, Dokyoon Kim, Yanxiang Deng, Aaron T. Mayer, Zhenqin Wu, Alexandro E. Trevino, Zhi Huang
cs.AI

Résumé

L'intégration de données moléculaires, morphologiques et cliniques est essentielle pour la recherche biomédicale fondamentale et translationnelle, mais les cadres systématiques pour modéliser conjointement ces modalités restent limités. Nous présentons ici Haiku, un modèle d'apprentissage contrastif trimodal entraîné sur l'immunofluorescence multiplexée. Il comprend 26,7 millions de patchs de protéomique spatiale provenant de 3 218 coupes tissulaires issues de 1 606 patients couvrant 11 types d'organes, avec des données histologiques H&E (hématoxyline-éosine) et des métadonnées cliniques appariées, alignées dans un espace d'embedding partagé. Haiku permet une recherche croisée trimodale, améliore les tâches de classification et de prédiction clinique en aval par rapport aux modèles de référence unimodaux, et prend en charge l'inférence de biomarqueurs en zero-shot via une recherche par fusion conditionnée par des descriptions textuelles basées uniquement sur les métadonnées cliniques. Sur toutes les tâches, Haiku surpasse les approches concurrentes, obtenant des résultats en recherche croisée (Rappel@50 jusqu'à 0,611 contre un baseline proche de zéro), en prédiction de survie (indice C 0,737, +7,91 % d'amélioration relative) et en inférence de biomarqueurs zero-shot (corrélation de Pearson moyenne de 0,718 sur 52 biomarqueurs). De plus, nous introduisons un cadre de prédiction contrefactuel dans lequel la modification des seules métadonnées cliniques, tout en maintenant fixe la morphologie tissulaire, met en lumière des changements moléculaires spécifiques de niche associés à la progression du stade du cancer du sein et aux pronostics de survie du cancer du poumon. Dans une étude de cas sur l'adénocarcinome pulmonaire, l'analyse contrefactuelle révèle des changements spécifiques de niche caractérisés par une augmentation de CD8 et de la granzyme B, une réduction de PD-L1 et une diminution de Ki67, globalement cohérents avec les profils rapportés pour les pronostics favorables. Nous présentons ces résultats contrefactuels comme des signaux exploratoires et générateurs d'hypothèses plutôt que comme des affirmations mécanistiques. Ces capacités démontrent que l'alignement trimodal via Haiku permet une analyse intégrative de la biologie spatiale, faisant le lien entre les mesures moléculaires et le contexte clinique pour l'exploration biologique.
English
Integrating molecular, morphological, and clinical data is essential for basic and translational biomedical research, yet systematic frameworks for jointly modeling these modalities remain limited. Here we present Haiku, a tri-modal contrastive learning model trained on multiplexed immunofluorescence (mIF). It comprises 26.7 million spatial proteomics patches from 3,218 tissue sections across 1,606 patients spanning 11 organ types, with matched hematoxylin and eosin (H&E) histology and clinical metadata aligned in a shared embedding space. Haiku enables three-way cross-modal retrieval, improves downstream classification and clinical prediction tasks over unimodal baselines, and supports zero-shot biomarker inference through fusion retrieval conditioned on clinical metadata-only text descriptions. Across tasks, Haiku outperforms competing approaches, achieving cross-modal retrieval (Recall@50 up to 0.611 versus near-zero baseline), survival prediction (C-index 0.737, +7.91% relative improvement), and zero-shot biomarker inference (mean Pearson correlation 0.718 across 52 biomarkers). Furthermore, we introduce a counterfactual prediction framework in which modifying only clinical metadata while fixing tissue morphology surfaces niche-specific molecular shifts associated with breast cancer stage progression and lung cancer survival outcomes. In a lung adenocarcinoma case study, the counterfactual analysis recovers niche-specific shifts characterized by increased CD8 and granzyme B, reduced PD-L1, and decreased Ki67, broadly consistent with patterns reported for favorable outcomes. We present these counterfactual results as exploratory, hypothesis-generating signals rather than mechanistic claims. These capabilities demonstrate that tri-modal alignment via Haiku enables integrative analysis of spatial biology, bridging molecular measurements with clinical context for biological exploration.
PDF01May 6, 2026