Lange-context visie-taalmodellen effectief trainen met generalisatie voorbij 128K context
Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context
May 13, 2026
Auteurs: Zhaowei Wang, Lishu Luo, Haodong Duan, Weiwei Liu, Sijin Wu, Ji Luo, Shen Yan, Shuai Peng, Sihang Yuan, Chaoyi Huang, Yi Lin, Yangqiu Song
cs.AI
Samenvatting
Lange-contextmodellering wordt een kerneigenschap van moderne grote visie-taalmodelen (LVLMs), en maakt aanhoudend contextbeheer mogelijk voor het begrijpen van lange documenten, videoanalyse en het gebruik van gereedschappen in meervoudige beurten binnen agentische workflows. Toch zijn praktische trainingsrecepten nog onvoldoende onderzocht, met name wat betreft het ontwerpen en balanceren van datamengsels voor lange contexten. In dit werk presenteren we een systematische studie naar voortgezette pre-training met lange contexten voor LVLMs, waarbij we een 7B-model uitbreiden van 32K naar 128K context met uitgebreide ablatie-experimenten op lange documentdata. We tonen eerst aan dat VQA op lange documenten aanzienlijk effectiever is dan OCR-transcriptie. Voortbouwend op deze waarneming levert onze ablatiestudie drie belangrijke bevindingen op: i) voor de verdeling van sequentielengtes presteren gebalanceerde data beter dan data gericht op een doellengte (bijv. 128K), wat erop wijst dat langecontextvaardigheid generaliseerbare sleutelinformatie-extractie over verschillende lengtes en posities vereist; ii) ophalen blijft de primaire bottleneck, wat pleit voor mengsels met veel ophaalwerk en bescheiden redeneerdata voor taakdiversiteit; en iii) pure VQA op lange documenten behoudt grotendeels kortcontextvaardigheden, wat suggereert dat instructie-geformatteerde lange data de noodzaak voor het mengen van korte data vermindert. Op basis van deze bevindingen introduceren we MMProLong, verkregen door voortgezette pre-training met lange contexten van Qwen2.5-VL-7B met een budget van slechts 5B tokens. MMProLong verbetert VQA-scores op lange documenten met 7,1% en handhaaft sterke prestaties op contexten van 256K en 512K, buiten het trainingsvenster van 128K, zonder extra training. Het generaliseert verder naar webgebaseerde multimodale naaldretrieval, compressie van lange visie-tekstcontexten en begrip van lange video's zonder taakspecifieke supervisie. Over het geheel genomen vestigt onze studie een praktisch LongPT-recept en een empirische basis voor het bevorderen van langecontextvisie-taalmodelen.
English
Long-context modeling is becoming a core capability of modern large vision-language models (LVLMs), enabling sustained context management across long-document understanding, video analysis, and multi-turn tool use in agentic workflows. Yet practical training recipes remain insufficiently explored, particularly for designing and balancing long-context data mixtures. In this work, we present a systematic study of long-context continued pre-training for LVLMs, extending a 7B model from 32K to 128K context with extensive ablations on long-document data. We first show that long-document VQA is substantially more effective than OCR transcription. Building on this observation, our ablations further yield three key findings: i) for sequence-length distribution, balanced data outperforms target-length-focused data (e.g., 128K), suggesting that long-context ability requires generalizable key-information retrieval across various lengths and positions; ii) retrieval remains the primary bottleneck, favoring retrieval-heavy mixtures with modest reasoning data for task diversity; and iii) pure long-document VQA largely preserves short-context capabilities, suggesting that instruction-formatted long data reduces the need for short-data mixing. Based on these findings, we introduce MMProLong, obtained by long-context continued pre-training from Qwen2.5-VL-7B with only a 5B-token budget. MMProLong improves long-document VQA scores by 7.1% and maintains strong performance at 256K and 512K contexts beyond its 128K training window, without additional training. It further generalizes to webpage-based multimodal needle retrieval, long-context vision-text compression, and long-video understanding without task-specific supervision. Overall, our study establishes a practical LongPT recipe and an empirical foundation for advancing long-context vision-language models.