Análisis Eficiente de Documentos mediante Predicción Paralela de Tokens

Resumen

El análisis de documentos, como tarea visual fundamental pero crucial, está siendo revolucionado por los modelos de visión y lenguaje (VLM). Sin embargo, la decodificación autoregresiva (AR) inherente a los VLM crea un cuello de botella significativo, limitando severamente la velocidad de análisis. En este artículo, proponemos Predicción Paralela de Tokens (PTP), un método conectable, independiente del modelo y simple pero efectivo, que permite a los VLM generar múltiples tokens futuros en paralelo con una eficiencia muestral mejorada. Específicamente, insertamos algunos tokens aprendibles en la secuencia de entrada y diseñamos objetivos de entrenamiento correspondientes para dotar al modelo de capacidades de decodificación paralela para el análisis de documentos. Además, para respaldar un entrenamiento efectivo, desarrollamos un pipeline integral de generación de datos que produce eficientemente datos de entrenamiento de análisis de documentos a gran escala y de alta calidad para VLM. Experimentos exhaustivos en OmniDocBench y olmOCR-bench demuestran que nuestro método no solo mejora significativamente la velocidad de decodificación (1.6x-2.2x), sino que también reduce las alucinaciones del modelo y exhibe fuertes habilidades de generalización.

English

Document parsing, as a fundamental yet crucial vision task, is being revolutionized by vision-language models (VLMs). However, the autoregressive (AR) decoding inherent to VLMs creates a significant bottleneck, severely limiting parsing speed. In this paper, we propose Parallel-Token Prediction (PTP), a plugable, model-agnostic and simple-yet-effective method that enables VLMs to generate multiple future tokens in parallel with improved sample efficiency. Specifically, we insert some learnable tokens into the input sequence and design corresponding training objectives to equip the model with parallel decoding capabilities for document parsing. Furthermore, to support effective training, we develop a comprehensive data generation pipeline that efficiently produces large-scale, high-quality document parsing training data for VLMs. Extensive experiments on OmniDocBench and olmOCR-bench demonstrate that our method not only significantly improves decoding speed (1.6x-2.2x) but also reduces model hallucinations and exhibits strong generalization abilities.

Análisis Eficiente de Documentos mediante Predicción Paralela de Tokens

Efficient Document Parsing via Parallel Token Prediction

Resumen

Support