Sin Tokens Desperdiciados: Aprovechando el Contexto Extenso en Modelos Biomédicos de Visión y Lenguaje
No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
October 4, 2025
Autores: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy
cs.AI
Resumen
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) suelen ser preentrenados con ventanas de texto cortas (<77 tokens), lo que obliga a truncar las descripciones de formato largo. Sin embargo, la distribución de las descripciones biomédicas provenientes de literatura de código abierto a gran escala revela que una gran parte de estas supera ampliamente los 77 tokens. Con este fin, investigamos el impacto del preentrenamiento en descripciones biomédicas de formato largo al extender la longitud del contexto de los codificadores de texto en los VLMs. Descubrimos que un contexto más largo (y, por lo tanto, la habilitación de supervisión adicional proporcionada en descripciones de formato largo) se correlaciona con un mejor rendimiento en tareas de recuperación y clasificación. Dado este hallazgo, presentamos BIOMEDICA-LongCAP, un conjunto de datos de 1 millón de pares imagen-descripción enriquecidos con descripciones contextuales extraídas de artículos de texto completo, lo que proporciona supervisión textual más extensa y adicional. Utilizando BIOMEDICA-LongCAP, entrenamos BMC-LongCLIP, un VLM biomédico de contexto largo con un codificador de texto que admite ventanas de hasta 512 tokens. Nuestro modelo extiende la capacidad de contexto en 6.6 veces, reduciendo el desperdicio de tokens del 55% a solo un 2.2%. En benchmarks de recuperación de descripciones largas, BMC-LongCLIP logra mejoras absolutas de hasta +30% en Recall@1 y un aumento promedio de +2% en clasificación, además de converger más rápido que los modelos de contexto corto. Nuestros resultados demuestran que el modelado de contexto largo es una dirección prometedora para avanzar en los VLMs biomédicos.
English
Embedding vision-language models (VLMs) are typically pretrained with short
text windows (<77 tokens), which forces the truncation of long-format captions.
Yet, the distribution of biomedical captions from large-scale open source
literature reveals that a huge portion of captions far exceed 77 tokens. To
this end, we investigate the impact of pretraining on long-format biomedical
captions by extending the context length of text encoders in VLMs. We find that
longer context (thus, enabling additional supervision provided in long-format
captions) correlates with better retrieval and classification performance.
Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M
image-caption pairs enriched with context-aware descriptions from full-text
articles, providing longer and additional textual supervision. Using
BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a
text encoder supporting windows of up to 512 tokens. Our model extends context
capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption
retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in
Recall@1 and +2% average improvements in classification, while also converging
faster than short-context. Our results demonstrate that long-context modeling
is a promising direction for advancing biomedical VLMs.