토큰 낭비 없음: 바이오메디컬 비전-언어 모델에서의 긴 컨텍스트 활용
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
저자: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
초록
비전-언어 모델(VLMs)은 일반적으로 짧은 텍스트 윈도우(<77 토큰)로 사전 학습되어, 긴 형식의 캡션을 잘라내야 하는 상황을 초래합니다. 그러나 대규모 오픈 소스 문헌에서 추출한 생물의학 캡션의 분포를 살펴보면, 상당 부분이 77 토큰을 훨씬 초과하는 것으로 나타났습니다. 이를 위해, 우리는 VLMs의 텍스트 인코더 컨텍스트 길이를 확장하여 긴 형식의 생물의학 캡션에 대한 사전 학습의 영향을 조사했습니다. 더 긴 컨텍스트(따라서 긴 형식 캡션에서 제공되는 추가적인 지도 학습)는 더 나은 검색 및 분류 성능과 상관관계가 있음을 발견했습니다. 이러한 발견을 바탕으로, 우리는 전체 텍스트 기사에서 컨텍스트 인식 설명을 포함한 1M개의 이미지-캡션 쌍으로 구성된 BIOMEDICA-LongCAP 데이터셋을 소개합니다. 이 데이터셋은 더 길고 추가적인 텍스트 지도 학습을 제공합니다. BIOMEDICA-LongCAP를 사용하여, 우리는 최대 512 토큰의 윈도우를 지원하는 텍스트 인코더를 가진 BMC-LongCLIP이라는 긴 컨텍스트 생물의학 VLM을 학습시켰습니다. 우리의 모델은 컨텍스트 용량을 6.6배 확장하여 토큰 낭비를 55%에서 단 2.2%로 줄였습니다. 긴 캡션 검색 벤치마크에서 BMC-LongCLIP은 Recall@1에서 최대 +30%의 절대적 향상과 분류에서 평균 +2%의 개선을 달성했으며, 짧은 컨텍스트보다 더 빠르게 수렴했습니다. 우리의 결과는 긴 컨텍스트 모델링이 생물의학 VLMs을 발전시키기 위한 유망한 방향임을 보여줍니다.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.