ChatPaper.aiChatPaper

mPLUG-DocOwl2: OCR 없이 고해상도 압축을 통한 다중 페이지 문서 이해

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

September 5, 2024
저자: Anwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 문서 이미지의 지원 해상도를 높여 OCR 없이도 유망한 문서 이해 성능을 달성했습니다. 그러나 이는 단일 문서 이미지에 대해 수천 개의 시각적 토큰을 생성해야 하는 비용을 수반하며, 특히 다중 페이지 문서 이해에서 과도한 GPU 메모리 사용과 느린 추론 속도를 초래합니다. 본 연구에서는 이러한 문제를 해결하기 위해 저해상도 전역 시각적 특징을 안내자로 활용하여 고해상도 문서 이미지를 324개 토큰으로 압축하는 고해상도 문서 압축기 모듈을 제안합니다. 이 압축 모듈을 바탕으로 다중 페이지 문서 이해 능력을 강화하고 토큰 효율성과 질의응답 성능을 균형 있게 조화시키기 위해 단일 이미지 사전 학습, 다중 이미지 계속 사전 학습, 다중 작업 미세 조정의 3단계 학습 프레임워크 하에 DocOwl2를 개발했습니다. DocOwl2는 다중 페이지 문서 이해 벤치마크에서 새로운 최첨단 성능을 기록하고 첫 토큰 지연 시간을 50% 이상 단축하여 다중 페이지 질의응답, 증거 페이지를 통한 설명, 페이지 간 구조 이해에서 뛰어난 능력을 입증했습니다. 또한 유사한 데이터로 학습된 단일 이미지 MLLM과 비교 시, 우리의 DocOwl2는 시각적 토큰 수를 20% 미만으로 사용하면서도 비슷한 수준의 단일 페이지 이해 성능을 달성했습니다. 우리의 코드, 모델 및 데이터는 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2에서 공개되어 있습니다.
English
Multimodel Large Language Models(MLLMs) have achieved promising OCR-free Document Understanding performance by increasing the supported resolution of document images. However, this comes at the cost of generating thousands of visual tokens for a single document image, leading to excessive GPU memory and slower inference times, particularly in multi-page document comprehension. In this work, to address these challenges, we propose a High-resolution DocCompressor module to compress each high-resolution document image into 324 tokens, guided by low-resolution global visual features. With this compression module, to strengthen multi-page document comprehension ability and balance both token efficiency and question-answering performance, we develop the DocOwl2 under a three-stage training framework: Single-image Pretraining, Multi-image Continue-pretraining, and Multi-task Finetuning. DocOwl2 sets a new state-of-the-art across multi-page document understanding benchmarks and reduces first token latency by more than 50%, demonstrating advanced capabilities in multi-page questioning answering, explanation with evidence pages, and cross-page structure understanding. Additionally, compared to single-image MLLMs trained on similar data, our DocOwl2 achieves comparable single-page understanding performance with less than 20% of the visual tokens. Our codes, models, and data are publicly available at https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
PDF264November 14, 2024