Geen Tokens Verspild: Benutten van Lange Context in Biomedische Vision-Taalmodellen
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
Auteurs: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
Samenvatting
Embedding vision-language modellen (VLMs) worden doorgaans voorgetraind met korte tekstvensters (<77 tokens), wat de afkapping van lange bijschriften noodzakelijk maakt. Echter, de verdeling van biomedische bijschriften uit grootschalige open-source literatuur laat zien dat een groot deel van de bijschriften ver boven de 77 tokens uitkomt. Daarom onderzoeken we de impact van vooraf trainen op lange biomedische bijschriften door de contextlengte van tekstencoders in VLMs uit te breiden. We ontdekken dat een langere context (en daarmee de extra supervisie die in lange bijschriften wordt geboden) correleert met betere retrievals en classificatieprestaties. Gezien deze bevinding introduceren we BIOMEDICA-LongCAP, een dataset van 1 miljoen afbeelding-bijschriftparen verrijkt met contextbewuste beschrijvingen uit volledige artikelen, die langere en aanvullende tekstuele supervisie bieden. Met BIOMEDICA-LongCAP trainen we BMC-LongCLIP, een biomedisch VLM met lange context en een tekstencoder die vensters van maximaal 512 tokens ondersteunt. Ons model vergroot de contextcapaciteit met 6,6x en reduceert tokenverspilling van 55% naar slechts 2,2%. Op benchmarks voor het ophalen van lange bijschriften behaalt BMC-LongCLIP absolute verbeteringen tot +30% in Recall@1 en gemiddelde verbeteringen van +2% in classificatie, terwijl het ook sneller convergeert dan modellen met korte context. Onze resultaten tonen aan dat modellering met lange context een veelbelovende richting is voor de vooruitgang van biomedische VLMs.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.