Aucun Jeton Gaspillé : Exploiter le Contexte Long dans les Modèles Biomédicaux Vision-Langage
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
papers.authors: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
papers.abstract
Les modèles d'intégration vision-langage (VLMs) sont généralement pré-entraînés avec des fenêtres de texte courtes (<77 tokens), ce qui impose la troncation des légendes longues. Cependant, la distribution des légendes biomédicales issues de la littérature open source à grande échelle révèle qu'une grande partie des légendes dépasse largement 77 tokens. À cette fin, nous étudions l'impact du pré-entraînement sur les légendes biomédicales longues en étendant la longueur de contexte des encodeurs de texte dans les VLMs. Nous constatons qu'un contexte plus long (permettant ainsi une supervision supplémentaire fournie dans les légendes longues) est corrélé à de meilleures performances en matière de recherche et de classification. Sur la base de cette observation, nous introduisons BIOMEDICA-LongCAP, un ensemble de données de 1 million de paires image-légende enrichies de descriptions contextuelles issues d'articles en texte intégral, offrant une supervision textuelle plus longue et supplémentaire. En utilisant BIOMEDICA-LongCAP, nous entraînons BMC-LongCLIP, un VLM biomédical à long contexte doté d'un encodeur de texte prenant en charge des fenêtres allant jusqu'à 512 tokens. Notre modèle étend la capacité de contexte par un facteur de 6,6, réduisant le gaspillage de tokens de 55 % à seulement 2,2 %. Sur les benchmarks de recherche de légendes longues, BMC-LongCLIP atteint des gains absolus allant jusqu'à +30 % en Recall@1 et des améliorations moyennes de +2 % en classification, tout en convergeant plus rapidement que les modèles à contexte court. Nos résultats démontrent que la modélisation à long contexte est une direction prometteuse pour faire progresser les VLMs biomédicaux.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.