NVIDIA Nemotron Parse 1.1
NVIDIA Nemotron Parse 1.1
November 25, 2025
저자: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI
초록
경량 문서 파싱 및 OCR 모델인 Nemotron-Parse-1.1을 소개합니다. 이 모델은 이전 버전인 Nemoretriever-Parse-1.0의 성능을 향상시켰습니다. Nemotron-Parse-1.1은 일반 OCR, 마크다운 서식 지정, 구조화된 테이블 파싱, 그림/차트/다이어그램 내 텍스트 추출 등 다양한 분야에서 개선된 성능을 제공합니다. 또한 시각적으로 밀도 높은 문서를 위해 더 긴 출력 시퀀스 길이를 지원합니다. 이전 모델과 마찬가지로 텍스트 세그먼트의 바운딩 박스와 해당 의미론적 클래스를 추출합니다. Nemotron-Parse-1.1은 885M 매개변수를 가진 인코더-디코더 아키텍처를 채택하며, 여기에는 컴팩트한 256M 매개변수의 언어 디코더가 포함됩니다. 공개 벤치마크에서 경쟁력 있는 정확도를 달성하여 강력한 경량 OCR 솔루션으로 자리매김했습니다. 모델 가중치는 Huggingface를 통해 공개하며, 최적화된 NIM 컨테이너와 더 넓은 Nemotron-VLM-v2 데이터셋의 일부인 훈련 데이터 서브셋도 함께 제공합니다. 추가로 시각 토큰 길이를 축소하여 20%의 속도 향상을 제공하며 품질 저하를 최소화한 Nemotron-Parse-1.1-TC도 공개합니다.
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.