Nenhum Token Desperdiçado: Aproveitando o Contexto Longo em Modelos Biomédicos de Visão e Linguagem
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
Autores: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
Resumo
Modelos de visão e linguagem (VLMs) com incorporação de embeddings são tipicamente pré-treinados com janelas de texto curtas (<77 tokens), o que força o truncamento de legendas de formato longo. No entanto, a distribuição de legendas biomédicas provenientes de literatura de código aberto em grande escala revela que uma grande porção dessas legendas excede significativamente 77 tokens. Para isso, investigamos o impacto do pré-treinamento em legendas biomédicas de formato longo, estendendo o comprimento do contexto dos codificadores de texto em VLMs. Descobrimos que contextos mais longos (e, portanto, a habilitação de supervisão adicional fornecida em legendas de formato longo) correlacionam-se com melhor desempenho em recuperação e classificação. Diante dessa descoberta, introduzimos o BIOMEDICA-LongCAP, um conjunto de dados de 1 milhão de pares imagem-legenda enriquecidos com descrições contextualizadas de artigos de texto completo, fornecendo supervisão textual mais longa e adicional. Utilizando o BIOMEDICA-LongCAP, treinamos o BMC-LongCLIP, um VLM biomédico de contexto longo com um codificador de texto que suporta janelas de até 512 tokens. Nosso modelo estende a capacidade de contexto em 6,6 vezes, reduzindo o desperdício de tokens de 55% para apenas 2,2%. Em benchmarks de recuperação de legendas longas, o BMC-LongCLIP alcança ganhos absolutos de até +30% em Recall@1 e melhorias médias de +2% em classificação, além de convergir mais rapidamente do que modelos de contexto curto. Nossos resultados demonstram que a modelagem de contexto longo é uma direção promissora para o avanço de VLMs biomédicos.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.