Nougat: Нейронное оптическое распознавание академических документов

Аннотация

Научные знания преимущественно хранятся в книгах и научных журналах, часто в формате PDF. Однако этот формат приводит к потере семантической информации, особенно для математических выражений. Мы предлагаем Nougat (Neural Optical Understanding for Academic Documents) — модель на основе Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки, и демонстрируем эффективность нашей модели на новом наборе данных научных документов. Предложенный подход предлагает перспективное решение для повышения доступности научных знаний в цифровую эпоху, устраняя разрыв между документами, удобочитаемыми для человека, и текстом, пригодным для машинной обработки. Мы публикуем модели и код, чтобы ускорить дальнейшие исследования в области распознавания научных текстов.

English

Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.

Nougat: Нейронное оптическое распознавание академических документов

Nougat: Neural Optical Understanding for Academic Documents

Аннотация

Support