NVIDIA Nemotron Parse 1.1
NVIDIA Nemotron Parse 1.1
November 25, 2025
著者: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI
要旨
我々は、軽量な文書解析およびOCRモデルであるNemotron-Parse-1.1を紹介する。本モデルは前身であるNemoretriever-Parse-1.0の機能を発展させ、一般OCR、マークダウン形式処理、構造化テーブル解析、画像・図表・ダイアグラムからのテキスト抽出において改良された能力を提供する。視覚的に高密度な文書に対応するため、より長い出力シーケンス長もサポートしている。前身モデルと同様に、テキストセグメントのバウンディングボックスと対応する意味的クラスの抽出機能を備える。Nemotron-Parse-1.1はエンコーダ-デコーダ構造を採用し、コンパクトな2億5600万パラメータの言語デコーダを含む総計8億8500万パラメータを有する。公開ベンチマークで競争力のある精度を達成し、強力な軽量OCRソリューションとなっている。モデル重みはHuggingfaceで公開するとともに、最適化されたNIMコンテナ、および広範なNemotron-VLM-v2データセットの一部として訓練データの一部を公開する。さらに、視覚トークン長を削減し20%の速度向上を実現したNemotron-Parse-1.1-TCも公開する。こちらは品質劣化を最小限に抑えている。
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.