Nessun Token Sprecato: Sfruttare il Contesto Esteso nei Modelli Biomedici di Visione e Linguaggio

Abstract

I modelli di visione-linguaggio (VLMs) vengono tipicamente pre-addestrati con finestre di testo brevi (<77 token), il che impone la troncatura delle didascalie di formato lungo. Tuttavia, la distribuzione delle didascalie biomediche provenienti dalla letteratura open source su larga scala rivela che una porzione significativa di didascalie supera di gran lunga i 77 token. A tal fine, investigiamo l'impatto del pre-addestramento su didascalie biomediche di formato lungo estendendo la lunghezza del contesto degli encoder di testo nei VLMs. Scopriamo che un contesto più lungo (e quindi, l'abilitazione di una supervisione aggiuntiva fornita dalle didascalie di formato lungo) è correlato con migliori prestazioni di recupero e classificazione. Alla luce di questa scoperta, introduciamo BIOMEDICA-LongCAP, un dataset di 1M coppie immagine-didascalia arricchito con descrizioni contestuali tratte da articoli full-text, fornendo una supervisione testuale più lunga e aggiuntiva. Utilizzando BIOMEDICA-LongCAP, addestriamo BMC-LongCLIP, un VLM biomedico a contesto lungo con un encoder di testo che supporta finestre fino a 512 token. Il nostro modello estende la capacità del contesto di 6.6x, riducendo lo spreco di token dal 55% a solo il 2.2%. Su benchmark di recupero con didascalie lunghe, BMC-LongCLIP ottiene miglioramenti assoluti fino al +30% in Recall@1 e un miglioramento medio del +2% nella classificazione, convergendo anche più velocemente rispetto ai modelli a contesto breve. I nostri risultati dimostrano che la modellazione a contesto lungo è una direzione promettente per l'avanzamento dei VLMs biomedici.

English

Embedding vision-language models (VLMs) are typically pretrained with short text windows (<77 tokens), which forces the truncation of long-format captions. Yet, the distribution of biomedical captions from large-scale open source literature reveals that a huge portion of captions far exceed 77 tokens. To this end, we investigate the impact of pretraining on long-format biomedical captions by extending the context length of text encoders in VLMs. We find that longer context (thus, enabling additional supervision provided in long-format captions) correlates with better retrieval and classification performance. Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M image-caption pairs enriched with context-aware descriptions from full-text articles, providing longer and additional textual supervision. Using BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a text encoder supporting windows of up to 512 tokens. Our model extends context capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in Recall@1 and +2% average improvements in classification, while also converging faster than short-context. Our results demonstrate that long-context modeling is a promising direction for advancing biomedical VLMs.

Nessun Token Sprecato: Sfruttare il Contesto Esteso nei Modelli Biomedici di Visione e Linguaggio

No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models

Abstract

Support