SmolDocling: Ein ultra-kompaktes Vision-Sprache-Modell für die End-to-End-Multi-Modale Dokumentkonvertierung
SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
March 14, 2025
Autoren: Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar
cs.AI
Zusammenfassung
Wir stellen SmolDocling vor, ein ultra-kompaktes Vision-Sprache-Modell, das auf die End-to-End-Dokumentkonvertierung abzielt. Unser Modell verarbeitet umfassend ganze Seiten, indem es DocTags erzeugt, ein neues universelles Markup-Format, das alle Seitenelemente in ihrem vollständigen Kontext mit Standort erfasst. Im Gegensatz zu bestehenden Ansätzen, die auf großen Basismodellen basieren, oder Ensemble-Lösungen, die auf handgefertigten Pipelines aus mehreren spezialisierten Modellen beruhen, bietet SmolDocling eine End-to-End-Konvertierung, um den Inhalt, die Struktur und die räumliche Lage von Dokumentelementen in einem Vision-Sprache-Modell mit 256M Parametern präzise zu erfassen. SmolDocling zeigt eine robuste Leistung bei der korrekten Reproduktion von Dokumentmerkmalen wie Code-Listen, Tabellen, Gleichungen, Diagrammen, Aufzählungen und mehr über eine Vielzahl von Dokumenttypen hinweg, einschließlich Geschäftsdokumenten, akademischen Arbeiten, technischen Berichten, Patenten und Formularen – und geht damit deutlich über den üblicherweise beobachteten Fokus auf wissenschaftliche Arbeiten hinaus. Zusätzlich tragen wir neuartige, öffentlich zugängliche Datensätze für die Erkennung von Diagrammen, Tabellen, Gleichungen und Code bei. Experimentelle Ergebnisse zeigen, dass SmolDocling mit anderen Vision-Sprache-Modellen konkurriert, die bis zu 27-mal größer sind, während der Rechenbedarf erheblich reduziert wird. Das Modell ist derzeit verfügbar, die Datensätze werden bald öffentlich zugänglich sein.
English
We introduce SmolDocling, an ultra-compact vision-language model targeting
end-to-end document conversion. Our model comprehensively processes entire
pages by generating DocTags, a new universal markup format that captures all
page elements in their full context with location. Unlike existing approaches
that rely on large foundational models, or ensemble solutions that rely on
handcrafted pipelines of multiple specialized models, SmolDocling offers an
end-to-end conversion for accurately capturing content, structure and spatial
location of document elements in a 256M parameters vision-language model.
SmolDocling exhibits robust performance in correctly reproducing document
features such as code listings, tables, equations, charts, lists, and more
across a diverse range of document types including business documents, academic
papers, technical reports, patents, and forms -- significantly extending beyond
the commonly observed focus on scientific papers. Additionally, we contribute
novel publicly sourced datasets for charts, tables, equations, and code
recognition. Experimental results demonstrate that SmolDocling competes with
other Vision Language Models that are up to 27 times larger in size, while
reducing computational requirements substantially. The model is currently
available, datasets will be publicly available soon.Summary
AI-Generated Summary