Treinamento Eficaz de Modelos de Visão-Linguagem de Contexto Longo com Generalização Além de Contexto de 128K

Resumo

A modelagem de contexto longo está se tornando uma capacidade central dos grandes modelos modernos de visão-linguagem (LVLMs), permitindo o gerenciamento sustentado de contexto em tarefas como compreensão de documentos longos, análise de vídeos e uso de ferramentas em múltiplas interações em fluxos de trabalho agentivos. No entanto, receitas práticas de treinamento ainda são insuficientemente exploradas, particularmente no projeto e equilíbrio de misturas de dados para contexto longo. Neste trabalho, apresentamos um estudo sistemático do pré-treinamento continuado para contexto longo em LVLMs, estendendo um modelo de 7B de 32K para 128K de contexto com ablações extensivas em dados de documentos longos. Primeiramente, mostramos que o VQA de documentos longos é substancialmente mais eficaz do que a transcrição OCR. Com base nessa observação, nossas ablações revelam ainda três descobertas principais: i) para a distribuição de comprimento de sequência, dados balanceados superam dados focados em comprimento alvo (por exemplo, 128K), sugerindo que a capacidade de contexto longo requer recuperação generalizável de informações-chave em diversos comprimentos e posições; ii) a recuperação continua sendo o principal gargalo, favorecendo misturas com ênfase em recuperação e dados moderados de raciocínio para diversidade de tarefas; e iii) o VQA puro de documentos longos preserva amplamente as capacidades de contexto curto, sugerindo que dados longos formatados como instrução reduzem a necessidade de mistura com dados curtos. Com base nessas descobertas, apresentamos o MMProLong, obtido por meio do pré-treinamento continuado para contexto longo a partir do Qwen2.5-VL-7B com um orçamento de apenas 5B tokens. O MMProLong melhora as pontuações de VQA de documentos longos em 7,1% e mantém um desempenho robusto em contextos de 256K e 512K, além de sua janela de treinamento de 128K, sem treinamento adicional. Ele ainda se generaliza para recuperação de agulha multimodal baseada em páginas web, compressão visão-texto de contexto longo e compreensão de vídeos longos sem supervisão específica de tarefa. No geral, nosso estudo estabelece uma receita prática de LongPT e uma base empírica para o avanço de modelos de visão-linguagem com contexto longo.

English

Long-context modeling is becoming a core capability of modern large vision-language models (LVLMs), enabling sustained context management across long-document understanding, video analysis, and multi-turn tool use in agentic workflows. Yet practical training recipes remain insufficiently explored, particularly for designing and balancing long-context data mixtures. In this work, we present a systematic study of long-context continued pre-training for LVLMs, extending a 7B model from 32K to 128K context with extensive ablations on long-document data. We first show that long-document VQA is substantially more effective than OCR transcription. Building on this observation, our ablations further yield three key findings: i) for sequence-length distribution, balanced data outperforms target-length-focused data (e.g., 128K), suggesting that long-context ability requires generalizable key-information retrieval across various lengths and positions; ii) retrieval remains the primary bottleneck, favoring retrieval-heavy mixtures with modest reasoning data for task diversity; and iii) pure long-document VQA largely preserves short-context capabilities, suggesting that instruction-formatted long data reduces the need for short-data mixing. Based on these findings, we introduce MMProLong, obtained by long-context continued pre-training from Qwen2.5-VL-7B with only a 5B-token budget. MMProLong improves long-document VQA scores by 7.1% and maintains strong performance at 256K and 512K contexts beyond its 128K training window, without additional training. It further generalizes to webpage-based multimodal needle retrieval, long-context vision-text compression, and long-video understanding without task-specific supervision. Overall, our study establishes a practical LongPT recipe and an empirical foundation for advancing long-context vision-language models.