OmniDocBench: 포괄적 주석을 사용한 다양한 PDF 문서 구문 분석의 벤치마킹OmniDocBench: Benchmarking Diverse PDF Document Parsing with
Comprehensive Annotations
컴퓨터 비전에서 문서 내용 추출은 특히 대규모 언어 모델 (LLMs)과 검색 증강 생성 (RAG) 기술의 고품질 데이터 요구를 충족시키기 위해 중요합니다. 그러나 현재의 문서 구문 분석 방법은 다양성과 포괄적인 평가 측면에서 중요한 제한사항을 가지고 있습니다. 이러한 도전에 대처하기 위해 우리는 자동 문서 내용 추출을 발전시키기 위해 설계된 혁신적인 다중 소스 벤치마크인 OmniDocBench를 소개합니다. OmniDocBench에는 학술 논문, 교과서, 슬라이드 등 다양한 문서 유형을 포함한 9가지 다양한 문서 유형으로 구성된 정교하게 선별된 고품질 평가 데이터셋이 포함되어 있습니다. 우리의 벤치마크는 19가지 레이아웃 범주 라벨과 14가지 속성 라벨을 갖춘 유연하고 포괄적인 평가 프레임워크를 제공하여 전체 데이터셋, 개별 모듈 또는 특정 데이터 유형을 효율적으로 평가할 수 있습니다. OmniDocBench를 활용하여 우리는 기존의 모듈식 파이프라인과 멀티모달 엔드 투 엔드 방법을 철저히 비교 분석하여 문서 다양성을 다루는 능력과 공정한 평가를 보여줍니다. OmniDocBench는 문서 내용 추출 분야를 위한 견고하고 다양하며 공정한 평가 기준을 수립하여 미래 발전에 대한 중요한 통찰을 제공하고 문서 구문 분석 기술의 발전을 촉진합니다. 코드와 데이터셋은 https://github.com/opendatalab/OmniDocBench에서 제공됩니다.