Nougat: Нейронное оптическое распознавание академических документов
Nougat: Neural Optical Understanding for Academic Documents
August 25, 2023
Авторы: Lukas Blecher, Guillem Cucurull, Thomas Scialom, Robert Stojnic
cs.AI
Аннотация
Научные знания преимущественно хранятся в книгах и научных журналах, часто в формате PDF. Однако этот формат приводит к потере семантической информации, особенно для математических выражений. Мы предлагаем Nougat (Neural Optical Understanding for Academic Documents) — модель на основе Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки, и демонстрируем эффективность нашей модели на новом наборе данных научных документов. Предложенный подход предлагает перспективное решение для повышения доступности научных знаний в цифровую эпоху, устраняя разрыв между документами, удобочитаемыми для человека, и текстом, пригодным для машинной обработки. Мы публикуем модели и код, чтобы ускорить дальнейшие исследования в области распознавания научных текстов.
English
Scientific knowledge is predominantly stored in books and scientific
journals, often in the form of PDFs. However, the PDF format leads to a loss of
semantic information, particularly for mathematical expressions. We propose
Nougat (Neural Optical Understanding for Academic Documents), a Visual
Transformer model that performs an Optical Character Recognition (OCR) task for
processing scientific documents into a markup language, and demonstrate the
effectiveness of our model on a new dataset of scientific documents. The
proposed approach offers a promising solution to enhance the accessibility of
scientific knowledge in the digital age, by bridging the gap between
human-readable documents and machine-readable text. We release the models and
code to accelerate future work on scientific text recognition.