Efficiënte Documentparsing via Parallelle Tokenvoorspelling
Efficient Document Parsing via Parallel Token Prediction
March 16, 2026
Auteurs: Lei Li, Ze Zhao, Meng Li, Zhongwang Lun, Yi Yuan, Xingjing Lu, Zheng Wei, Jiang Bian, Zang Li
cs.AI
Samenvatting
Document parsing, als fundamentele maar cruciale visietaak, wordt momenteel gerevolutioneerd door vision-language models (VLMs). Het autoregressieve (AR) decoderen dat inherent is aan VLMs vormt echter een aanzienlijke bottleneck, wat de parsesnelheid ernstig beperkt. In dit artikel stellen wij Parallel-Token Prediction (PTP) voor, een inplugbare, model-agnostische en eenvoudige-yet-effectieve methode die VLMs in staat stelt om meerdere toekomstige tokens parallel te genereren met een verbeterde sample-efficiëntie. Concreet voegen we enkele leerbare tokens in de invoerreeks in en ontwerpen we bijbehorende trainingsdoelstellingen om het model uit te rusten met parallelle decodeermogelijkheden voor document parsing. Verder ontwikkelen we, ter ondersteuning van effectieve training, een uitgebreide pijplijn voor datageneratie die efficiënt grootschalige, hoogwaardige trainingsdata voor document parsing voor VLMs produceert. Uitgebreide experimenten op OmniDocBench en olmOCR-bench tonen aan dat onze methode niet alleen de decodesnelheid aanzienlijk verbetert (1.6x-2.2x), maar ook modelhallucinaties vermindert en sterke generalisatievermogens tentoonspreidt.
English
Document parsing, as a fundamental yet crucial vision task, is being revolutionized by vision-language models (VLMs). However, the autoregressive (AR) decoding inherent to VLMs creates a significant bottleneck, severely limiting parsing speed. In this paper, we propose Parallel-Token Prediction (PTP), a plugable, model-agnostic and simple-yet-effective method that enables VLMs to generate multiple future tokens in parallel with improved sample efficiency. Specifically, we insert some learnable tokens into the input sequence and design corresponding training objectives to equip the model with parallel decoding capabilities for document parsing. Furthermore, to support effective training, we develop a comprehensive data generation pipeline that efficiently produces large-scale, high-quality document parsing training data for VLMs. Extensive experiments on OmniDocBench and olmOCR-bench demonstrate that our method not only significantly improves decoding speed (1.6x-2.2x) but also reduces model hallucinations and exhibits strong generalization abilities.