Keine Tokens verschwendet: Nutzung langer Kontexte in biomedizinischen Vision-Sprache-Modellen
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
papers.authors: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
papers.abstract
Eingebettete Vision-Sprach-Modelle (VLMs) werden typischerweise mit kurzen Textfenstern (<77 Token) vortrainiert, was die Kürzung von Langformat-Bildunterschriften erzwingt. Dennoch zeigt die Verteilung biomedizinischer Bildunterschriften aus groß angelegter Open-Source-Literatur, dass ein erheblicher Teil der Bildunterschriften weit über 77 Token hinausgeht. Vor diesem Hintergrund untersuchen wir die Auswirkungen des Vortrainierens auf Langformat-Bildunterschriften in der Biomedizin, indem wir die Kontextlänge der Textkodierer in VLMs erweitern. Wir stellen fest, dass ein längerer Kontext (und damit die zusätzliche Aufsicht, die in Langformat-Bildunterschriften enthalten ist) mit einer besseren Retrieval- und Klassifikationsleistung korreliert. Angesichts dieser Erkenntnis führen wir BIOMEDICA-LongCAP ein, einen Datensatz von 1M Bild-Bildunterschriften-Paaren, der mit kontextbewussten Beschreibungen aus Volltextartikeln angereichert ist und längere sowie zusätzliche textuelle Aufsicht bietet. Mit BIOMEDICA-LongCAP trainieren wir BMC-LongCLIP, ein biomedizinisches VLM mit Langkontext, das einen Textkodierer unterstützt, der Fenster von bis zu 512 Token verarbeiten kann. Unser Modell erweitert die Kontextkapazität um das 6,6-fache und reduziert den Token-Verschleiss von 55 % auf nur 2,2 %. Bei Benchmarks für das Retrieval von Langformat-Bildunterschriften erzielt BMC-LongCLIP absolute Gewinne von bis zu +30 % in Recall@1 und durchschnittliche Verbesserungen von +2 % in der Klassifikation, während es gleichzeitig schneller konvergiert als Modelle mit kurzem Kontext. Unsere Ergebnisse zeigen, dass die Modellierung von Langkontext eine vielversprechende Richtung für die Weiterentwicklung biomedizinischer VLMs darstellt.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.