NVIDIA Nemotron Parse 1.1
NVIDIA Nemotron Parse 1.1
November 25, 2025
Auteurs: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI
Samenvatting
Wij introduceren Nemotron-Parse-1.1, een lichtgewicht model voor documentparsing en OCR dat de mogelijkheden van zijn voorganger, Nemoretriever-Parse-1.0, verder uitbreidt. Nemotron-Parse-1.1 biedt verbeterde prestaties op het gebied van algemene OCR, markdown-opmaak, het parsen van gestructureerde tabellen en tekstextractie uit afbeeldingen, grafieken en diagrammen. Het ondersteunt tevens een langere uitvoersequentielengte voor visueel complexe documenten. Net als zijn voorganger extraheert het begrenzingskaders van tekstsegmenten en de bijbehorende semantische klassen. Nemotron-Parse-1.1 volgt een encoder-decoderarchitectuur met 885M parameters, inclusief een compacte taaldecodeerder van 256M parameters. Het behaalt concurrerende nauwkeurigheid op publieke benchmarks, waardoor het een sterke lichtgewicht OCR-oplossing is. Wij publiceren de modelgewichten openbaar op Huggingface, evenals een geoptimaliseerde NIM-container, samen met een subset van de trainingsgegevens als onderdeel van de bredere Nemotron-VLM-v2-dataset. Daarnaast brengen wij Nemotron-Parse-1.1-TC uit, dat werkt met een verkorte visuele tokenlengte en een 20% snelheidsverbetering biedt met minimale kwaliteitsvermindering.
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.