Nessun Token Sprecato: Sfruttare il Contesto Esteso nei Modelli Biomedici di Visione e Linguaggio
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
Autori: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
Abstract
I modelli di visione-linguaggio (VLMs) vengono tipicamente pre-addestrati con finestre di testo brevi (<77 token), il che impone la troncatura delle didascalie di formato lungo. Tuttavia, la distribuzione delle didascalie biomediche provenienti dalla letteratura open source su larga scala rivela che una porzione significativa di didascalie supera di gran lunga i 77 token. A tal fine, investigiamo l'impatto del pre-addestramento su didascalie biomediche di formato lungo estendendo la lunghezza del contesto degli encoder di testo nei VLMs. Scopriamo che un contesto più lungo (e quindi, l'abilitazione di una supervisione aggiuntiva fornita dalle didascalie di formato lungo) è correlato con migliori prestazioni di recupero e classificazione. Alla luce di questa scoperta, introduciamo BIOMEDICA-LongCAP, un dataset di 1M coppie immagine-didascalia arricchito con descrizioni contestuali tratte da articoli full-text, fornendo una supervisione testuale più lunga e aggiuntiva. Utilizzando BIOMEDICA-LongCAP, addestriamo BMC-LongCLIP, un VLM biomedico a contesto lungo con un encoder di testo che supporta finestre fino a 512 token. Il nostro modello estende la capacità del contesto di 6.6x, riducendo lo spreco di token dal 55% a solo il 2.2%. Su benchmark di recupero con didascalie lunghe, BMC-LongCLIP ottiene miglioramenti assoluti fino al +30% in Recall@1 e un miglioramento medio del +2% nella classificazione, convergendo anche più velocemente rispetto ai modelli a contesto breve. I nostri risultati dimostrano che la modellazione a contesto lungo è una direzione promettente per l'avanzamento dei VLMs biomedici.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.