ChatPaper.aiChatPaper

NVIDIA Nemotron Parse 1.1

NVIDIA Nemotron Parse 1.1

November 25, 2025
papers.authors: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI

papers.abstract

Nous présentons Nemotron-Parse-1.1, un modèle léger d'analyse de documents et de reconnaissance optique de caractères (OCR) qui améliore les capacités de son prédécesseur, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 offre des performances supérieures dans les domaines de l'OCR général, de la mise en forme Markdown, de l'analyse de tableaux structurés et de l'extraction de texte à partir d'images, de graphiques et de diagrammes. Il prend également en charge une longueur de séquence de sortie plus importante pour les documents visuellement denses. Comme son prédécesseur, il extrait les boîtes englobantes des segments de texte ainsi que leurs classes sémantiques correspondantes. Nemotron-Parse-1.1 suit une architecture encodeur-décodeur avec 885 millions de paramètres, incluant un décodeur linguistique compact de 256 millions de paramètres. Il atteint une précision compétitive sur les benchmarks publics, ce qui en fait une solution OCR légère performante. Nous publions les poids du modèle sur Hugging Face, ainsi qu'un conteneur NIM optimisé, accompagné d'un sous-ensemble des données d'entraînement faisant partie du jeu de données plus vaste Nemotron-VLM-v2. De plus, nous publions Nemotron-Parse-1.1-TC, qui fonctionne avec une longueur réduite de tokens visuels, offrant une amélioration de vitesse de 20 % pour une dégradation de qualité minime.
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.
PDF192December 1, 2025