ChatPaper.aiChatPaper

NVIDIA Nemotron Parse 1.1

NVIDIA Nemotron Parse 1.1

November 25, 2025
papers.authors: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI

papers.abstract

Wir stellen Nemotron-Parse-1.1 vor, ein leichtgewichtiges Modell zur Dokumentenanalyse und Texterkennung (OCR), das die Fähigkeiten seines Vorgängers Nemoretriever-Parse-1.0 erweitert. Nemotron-Parse-1.1 bietet verbesserte Leistungsfähigkeit in den Bereichen allgemeine OCR, Markdown-Formatierung, Analyse strukturierter Tabellen sowie Textextraktion aus Bildern, Diagrammen und Schaubildern. Zudem unterstützt es eine längere Ausgabesequenzlänge für visuell dichte Dokumente. Wie sein Vorgänger extrahiert es Begrenzungsrahmen von Textsegmenten sowie die entsprechenden semantischen Klassen. Nemotron-Parse-1.1 folgt einer Encoder-Decoder-Architektur mit 885 Millionen Parametern, einschließlich eines kompakten Sprach-Decoders mit 256 Millionen Parametern. Es erreicht eine wettbewerbsfähige Genauigkeit auf öffentlichen Benchmarks und stellt damit eine leistungsstarke, leichtgewichtige OCR-Lösung dar. Wir veröffentlichen die Modellgewichte öffentlich auf Huggingface, sowie einen optimierten NIM-Container, zusammen mit einem Teil der Trainingsdaten als Bestandteil des umfassenderen Nemotron-VLM-v2-Datensatzes. Zusätzlich veröffentlichen wir Nemotron-Parse-1.1-TC, das mit einer reduzierten Länge an Vision-Tokens arbeitet und eine 20 %ige Geschwindigkeitssteigerung bei minimalem Qualitätsverlust bietet.
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.
PDF192December 1, 2025