SmolDocling: Um modelo de linguagem visual ultracompacto para conversão multimodal de documentos de ponta a ponta
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
March 14, 2025
Autores: Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar
cs.AI
Resumo
Apresentamos o SmolDocling, um modelo visão-linguagem ultracompacto voltado para a conversão de documentos de ponta a ponta. Nosso modelo processa páginas inteiras de forma abrangente, gerando DocTags, um novo formato de marcação universal que captura todos os elementos da página em seu contexto completo, incluindo localização. Diferente das abordagens existentes que dependem de modelos fundamentais de grande escala ou soluções em conjunto que utilizam pipelines manuais de múltiplos modelos especializados, o SmolDocling oferece uma conversão de ponta a ponta para capturar com precisão o conteúdo, a estrutura e a localização espacial dos elementos de documentos em um modelo visão-linguagem com 256 milhões de parâmetros. O SmolDocling demonstra desempenho robusto na reprodução correta de características de documentos, como listagens de código, tabelas, equações, gráficos, listas e muito mais, em uma ampla variedade de tipos de documentos, incluindo documentos comerciais, artigos acadêmicos, relatórios técnicos, patentes e formulários — estendendo-se significativamente além do foco comum em artigos científicos. Além disso, contribuímos com novos conjuntos de dados de origem pública para reconhecimento de gráficos, tabelas, equações e código. Resultados experimentais demonstram que o SmolDocling compete com outros modelos visão-linguagem que chegam a ser 27 vezes maiores em tamanho, enquanto reduz substancialmente os requisitos computacionais. O modelo já está disponível, e os conjuntos de dados serão disponibilizados publicamente em breve.
English
We introduce SmolDocling, an ultra-compact vision-language model targeting
end-to-end document conversion. Our model comprehensively processes entire
pages by generating DocTags, a new universal markup format that captures all
page elements in their full context with location. Unlike existing approaches
that rely on large foundational models, or ensemble solutions that rely on
handcrafted pipelines of multiple specialized models, SmolDocling offers an
end-to-end conversion for accurately capturing content, structure and spatial
location of document elements in a 256M parameters vision-language model.
SmolDocling exhibits robust performance in correctly reproducing document
features such as code listings, tables, equations, charts, lists, and more
across a diverse range of document types including business documents, academic
papers, technical reports, patents, and forms -- significantly extending beyond
the commonly observed focus on scientific papers. Additionally, we contribute
novel publicly sourced datasets for charts, tables, equations, and code
recognition. Experimental results demonstrate that SmolDocling competes with
other Vision Language Models that are up to 27 times larger in size, while
reducing computational requirements substantially. The model is currently
available, datasets will be publicly available soon.Summary
AI-Generated Summary