NVIDIA Nemotron Parse 1.1

Resumo

Apresentamos o Nemotron-Parse-1.1, um modelo leve de análise de documentos e OCR que avança as capacidades de seu predecessor, o Nemoretriever-Parse-1.0. O Nemotron-Parse-1.1 oferece capacidades aprimoradas em OCR geral, formatação markdown, análise estruturada de tabelas e extração de texto de imagens, gráficos e diagramas. Ele também suporta um comprimento de sequência de saída maior para documentos visualmente densos. Como seu predecessor, ele extrai caixas delimitadoras de segmentos de texto, bem como classes semânticas correspondentes. O Nemotron-Parse-1.1 segue uma arquitetura de codificador-decodificador com 885 milhões de parâmetros, incluindo um decodificador de linguagem compacto de 256 milhões de parâmetros. Ele alcança precisão competitiva em benchmarks públicos, tornando-o uma solução de OCR leve e robusta. Disponibilizamos publicamente os pesos do modelo no Huggingface, bem como um contêiner NIM otimizado, juntamente com um subconjunto dos dados de treinamento como parte do conjunto de dados mais amplo Nemotron-VLM-v2. Adicionalmente, lançamos o Nemotron-Parse-1.1-TC, que opera com um comprimento reduzido de *tokens* visuais, oferecendo uma melhoria de 20% na velocidade com degradação mínima de qualidade.

English

We introduce Nemotron-Parse-1.1, a lightweight document parsing and OCR model that advances the capabilities of its predecessor, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 delivers improved capabilities across general OCR, markdown formatting, structured table parsing, and text extraction from pictures, charts, and diagrams. It also supports a longer output sequence length for visually dense documents. As with its predecessor, it extracts bounding boxes of text segments, as well as corresponding semantic classes. Nemotron-Parse-1.1 follows an encoder-decoder architecture with 885M parameters, including a compact 256M-parameter language decoder. It achieves competitive accuracy on public benchmarks making it a strong lightweight OCR solution. We release the model weights publicly on Huggingface, as well as an optimized NIM container, along with a subset of the training data as part of the broader Nemotron-VLM-v2 dataset. Additionally, we release Nemotron-Parse-1.1-TC which operates on a reduced vision token length, offering a 20% speed improvement with minimal quality degradation.