ChatPaper.aiChatPaper

NVIDIA Nemotron Parse 1.1

NVIDIA Nemotron Parse 1.1

November 25, 2025
Autores: Kateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro
cs.AI

Resumen

Presentamos Nemotron-Parse-1.1, un modelo ligero de análisis de documentos y OCR que avanza las capacidades de su predecesor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 ofrece capacidades mejoradas en OCR general, formato de markdown, análisis de tablas estructuradas y extracción de texto de imágenes, gráficos y diagramas. También admite una longitud de secuencia de salida más larga para documentos visualmente densos. Al igual que su predecesor, extrae cuadros delimitadores de segmentos de texto, así como las clases semánticas correspondientes. Nemotron-Parse-1.1 sigue una arquitectura de codificador-decodificador con 885 millones de parámetros, incluyendo un decodificador de lenguaje compacto de 256 millones de parámetros. Logra una precisión competitiva en benchmarks públicos, lo que lo convierte en una sólida solución de OCR ligera. Publicamos los pesos del modelo en Huggingface, así como un contenedor NIM optimizado, junto con un subconjunto de los datos de entrenamiento como parte del conjunto de datos más amplio Nemotron-VLM-v2. Adicionalmente, publicamos Nemotron-Parse-1.1-TC, que opera con una longitud reducida de tokens visuales, ofreciendo una mejora de velocidad del 20% con una degradación mínima de la calidad.
English
We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.
PDF192December 1, 2025