mPLUG-DocOwl2: Compresión de alta resolución para la comprensión de documentos multipágina sin OCR
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding
September 5, 2024
Autores: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento prometedor en la Comprensión de Documentos sin OCR al aumentar la resolución admitida de las imágenes de documentos. Sin embargo, esto tiene el costo de generar miles de tokens visuales para una sola imagen de documento, lo que resulta en un uso excesivo de memoria GPU y tiempos de inferencia más lentos, especialmente en la comprensión de documentos de múltiples páginas. En este trabajo, para abordar estos desafíos, proponemos un módulo de Compresor de Documentos de Alta Resolución (High-resolution DocCompressor) que comprime cada imagen de documento de alta resolución en 324 tokens, guiado por características visuales globales de baja resolución. Con este módulo de compresión, para fortalecer la capacidad de comprensión de documentos de múltiples páginas y equilibrar tanto la eficiencia de tokens como el rendimiento en tareas de preguntas y respuestas, desarrollamos DocOwl2 bajo un marco de entrenamiento en tres etapas: Pretrenamiento de Imagen Única, Continuación de Pretrenamiento con Múltiples Imágenes y Ajuste Fino Multitarea. DocOwl2 establece un nuevo estado del arte en los puntos de referencia de comprensión de documentos de múltiples páginas y reduce la latencia del primer token en más del 50%, demostrando capacidades avanzadas en la respuesta a preguntas de múltiples páginas, explicación con páginas de evidencia y comprensión de estructuras entre páginas. Además, en comparación con los MLLMs de imagen única entrenados con datos similares, nuestro DocOwl2 logra un rendimiento comparable en la comprensión de páginas individuales con menos del 20% de los tokens visuales. Nuestros códigos, modelos y datos están disponibles públicamente en https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free
Document Understanding performance by increasing the supported resolution of
document images. However, this comes at the cost of generating thousands of
visual tokens for a single document image, leading to excessive GPU memory and
slower inference times, particularly in multi-page document comprehension. In
this work, to address these challenges, we propose a High-resolution
DocCompressor module to compress each high-resolution document image into 324
tokens, guided by low-resolution global visual features. With this compression
module, to strengthen multi-page document comprehension ability and balance
both token efficiency and question-answering performance, we develop the
DocOwl2 under a three-stage training framework: Single-image Pretraining,
Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new
state-of-the-art across multi-page document understanding benchmarks and
reduces first token latency by more than 50%, demonstrating advanced
capabilities in multi-page questioning answering, explanation with evidence
pages, and cross-page structure understanding. Additionally, compared to
single-image MLLMs trained on similar data, our DocOwl2 achieves comparable
single-page understanding performance with less than 20% of the visual tokens.
Our codes, models, and data are publicly available at
https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.