ChatPaper.aiChatPaper

Nougat: 학술 문서를 위한 신경망 기반 광학 이해 시스템

Nougat: Neural Optical Understanding for Academic Documents

August 25, 2023
저자: Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
cs.AI

초록

과학 지식은 주로 책과 과학 저널에 PDF 형태로 저장되어 있습니다. 그러나 PDF 형식은 특히 수학적 표현에서 의미 정보의 손실을 초래합니다. 우리는 과학 문서를 마크업 언어로 처리하기 위한 광학 문자 인식(OCR) 작업을 수행하는 Visual Transformer 모델인 Nougat(Neural Optical Understanding for Academic Documents)를 제안하고, 새로운 과학 문서 데이터셋에서 우리 모델의 효과를 입증합니다. 제안된 접근 방식은 인간이 읽을 수 있는 문서와 기계가 읽을 수 있는 텍스트 간의 격차를 해소함으로써 디지털 시대에 과학 지식의 접근성을 향상시키는 유망한 솔루션을 제공합니다. 우리는 과학 텍스트 인식에 대한 향후 연구를 가속화하기 위해 모델과 코드를 공개합니다.
English
Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.
PDF392December 15, 2024