ChatPaper.aiChatPaper

NVIDIA Nemotron Parse 1.1

NVIDIA Nemotron Parse 1.1

November 25, 2025
Autori: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI

Abstract

Presentiamo Nemotron-Parse-1.1, un modello leggero per il parsing di documenti e l'OCR che avanza le capacità del suo predecessore, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 offre capacità migliorate nell'OCR generale, nella formattazione markdown, nel parsing strutturato di tabelle e nell'estrazione di testo da immagini, grafici e diagrammi. Supporta inoltre una lunghezza di sequenza in output maggiore per documenti visivamente densi. Come il suo predecessore, estrae i bounding box dei segmenti di testo, insieme alle corrispondenti classi semantiche. Nemotron-Parse-1.1 segue un'architettura encoder-decoder con 885 milioni di parametri, incluso un compatto decoder linguistico da 256 milioni di parametri. Raggiunge un'accuratezza competitiva sui benchmark pubblici, rendendolo una soluzione OCR leggera e robusta. Rilasciamo pubblicamente i pesi del modello su Huggingface, insieme a un container NIM ottimizzato e a un sottoinsieme dei dati di addestramento come parte del più ampio dataset Nemotron-VLM-v2. Inoltre, rilasciamo Nemotron-Parse-1.1-TC, che opera su una lunghezza ridotta dei token visivi, offrendo un miglioramento della velocità del 20% con un degrado minimo della qualità.
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.
PDF192December 1, 2025