Geen Tokens Verspild: Benutten van Lange Context in Biomedische Vision-Taalmodellen

Samenvatting

Embedding vision-language modellen (VLMs) worden doorgaans voorgetraind met korte tekstvensters (<77 tokens), wat de afkapping van lange bijschriften noodzakelijk maakt. Echter, de verdeling van biomedische bijschriften uit grootschalige open-source literatuur laat zien dat een groot deel van de bijschriften ver boven de 77 tokens uitkomt. Daarom onderzoeken we de impact van vooraf trainen op lange biomedische bijschriften door de contextlengte van tekstencoders in VLMs uit te breiden. We ontdekken dat een langere context (en daarmee de extra supervisie die in lange bijschriften wordt geboden) correleert met betere retrievals en classificatieprestaties. Gezien deze bevinding introduceren we BIOMEDICA-LongCAP, een dataset van 1 miljoen afbeelding-bijschriftparen verrijkt met contextbewuste beschrijvingen uit volledige artikelen, die langere en aanvullende tekstuele supervisie bieden. Met BIOMEDICA-LongCAP trainen we BMC-LongCLIP, een biomedisch VLM met lange context en een tekstencoder die vensters van maximaal 512 tokens ondersteunt. Ons model vergroot de contextcapaciteit met 6,6x en reduceert tokenverspilling van 55% naar slechts 2,2%. Op benchmarks voor het ophalen van lange bijschriften behaalt BMC-LongCLIP absolute verbeteringen tot +30% in Recall@1 en gemiddelde verbeteringen van +2% in classificatie, terwijl het ook sneller convergeert dan modellen met korte context. Onze resultaten tonen aan dat modellering met lange context een veelbelovende richting is voor de vooruitgang van biomedische VLMs.

English

Embedding vision-language models (VLMs) are typically pretrained with short text windows (<77 tokens), which forces the truncation of long-format captions. Yet, the distribution of biomedical captions from large-scale open source literature reveals that a huge portion of captions far exceed 77 tokens. To this end, we investigate the impact of pretraining on long-format biomedical captions by extending the context length of text encoders in VLMs. We find that longer context (thus, enabling additional supervision provided in long-format captions) correlates with better retrieval and classification performance. Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M image-caption pairs enriched with context-aware descriptions from full-text articles, providing longer and additional textual supervision. Using BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a text encoder supporting windows of up to 512 tokens. Our model extends context capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in Recall@1 and +2% average improvements in classification, while also converging faster than short-context. Our results demonstrate that long-context modeling is a promising direction for advancing biomedical VLMs.

Geen Tokens Verspild: Benutten van Lange Context in Biomedische Vision-Taalmodellen

No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models

Samenvatting

Support