Analyse Efficace de Documents par Prédiction Parallèle de Tokens

Résumé

L'analyse de documents, en tant que tâche de vision fondamentale mais cruciale, est en train d'être révolutionnée par les modèles vision-langage (VLM). Cependant, le décodage autorégressif (AR) inhérent aux VLM crée un goulot d'étranglement significatif, limitant sévèrement la vitesse d'analyse. Dans cet article, nous proposons la Prédiction de Tokens Parallèles (PTP), une méthode enfichable, agnostique au modèle et simple mais efficace, qui permet aux VLM de générer plusieurs tokens futurs en parallèle avec une meilleure efficacité d'échantillonnage. Plus précisément, nous insérons des tokens apprenables dans la séquence d'entrée et concevons des objectifs d'entraînement correspondants pour doter le modèle de capacités de décodage parallèle pour l'analyse de documents. De plus, pour soutenir un entraînement efficace, nous développons un pipeline complet de génération de données qui produit efficacement des données d'entraînement à grande échelle et de haute qualité pour l'analyse de documents par les VLM. Des expériences approfondies sur OmniDocBench et olmOCR-bench démontrent que notre méthode améliore non seulement significativement la vitesse de décodage (1.6x-2.2x) mais réduit aussi les hallucinations du modèle et présente de fortes capacités de généralisation.

English

Document parsing, as a fundamental yet crucial vision task, is being revolutionized by vision-language models (VLMs). However, the autoregressive (AR) decoding inherent to VLMs creates a significant bottleneck, severely limiting parsing speed. In this paper, we propose Parallel-Token Prediction (PTP), a plugable, model-agnostic and simple-yet-effective method that enables VLMs to generate multiple future tokens in parallel with improved sample efficiency. Specifically, we insert some learnable tokens into the input sequence and design corresponding training objectives to equip the model with parallel decoding capabilities for document parsing. Furthermore, to support effective training, we develop a comprehensive data generation pipeline that efficiently produces large-scale, high-quality document parsing training data for VLMs. Extensive experiments on OmniDocBench and olmOCR-bench demonstrate that our method not only significantly improves decoding speed (1.6x-2.2x) but also reduces model hallucinations and exhibits strong generalization abilities.

Analyse Efficace de Documents par Prédiction Parallèle de Tokens

Efficient Document Parsing via Parallel Token Prediction

Résumé

Support