Effiziente Dokumentenanalyse durch parallele Token-Vorhersage
Efficient Document Parsing via Parallel Token Prediction
March 16, 2026
Autoren: Lei Li, Ze Zhao, Meng Li, Zhongwang Lun, Yi Yuan, Xingjing Lu, Zheng Wei, Jiang Bian, Zang Li
cs.AI
Zusammenfassung
Die Dokumentenanalyse, eine grundlegende aber entscheidende Aufgabe im Bereich Computer Vision, wird durch Vision-Language-Modelle (VLMs) revolutioniert. Allerdings stellt die diesen Modellen inhärente autoregressive (AR) Dekodierung einen erheblichen Engpass dar, der die Parsing-Geschwindigkeit stark begrenzt. In diesem Beitrag schlagen wir Parallel-Token Prediction (PTP) vor, eine anschlussfähige, modellagnostische und einfache, aber effektive Methode, die es VLMs ermöglicht, mehrere zukünftige Tokens parallel mit verbesserter Stichprobeneffizienz zu generieren. Konkret fügen wir einige lernbare Tokens in die Eingabesequenz ein und entwerfen entsprechende Trainingsziele, um das Modell mit Fähigkeiten zur parallelen Dekodierung für die Dokumentenanalyse auszustatten. Darüber hinaus entwickeln wir für ein effektives Training eine umfassende Daten-Generierungspipeline, die effizient großvolumige, hochwertige Trainingsdaten für die VLM-Dokumentenanalyse erzeugt. Umfangreiche Experimente auf OmniDocBench und olmOCR-bench belegen, dass unsere Methode nicht nur die Dekodiergeschwindigkeit signifikant steigert (1,6x-2,2x), sondern auch Modellhalluzinationen reduziert und starke Generalisierungsfähigkeiten aufweist.
English
Document parsing, as a fundamental yet crucial vision task, is being revolutionized by vision-language models (VLMs). However, the autoregressive (AR) decoding inherent to VLMs creates a significant bottleneck, severely limiting parsing speed. In this paper, we propose Parallel-Token Prediction (PTP), a plugable, model-agnostic and simple-yet-effective method that enables VLMs to generate multiple future tokens in parallel with improved sample efficiency. Specifically, we insert some learnable tokens into the input sequence and design corresponding training objectives to equip the model with parallel decoding capabilities for document parsing. Furthermore, to support effective training, we develop a comprehensive data generation pipeline that efficiently produces large-scale, high-quality document parsing training data for VLMs. Extensive experiments on OmniDocBench and olmOCR-bench demonstrate that our method not only significantly improves decoding speed (1.6x-2.2x) but also reduces model hallucinations and exhibits strong generalization abilities.