ChatPaper.aiChatPaper

SmolDocling: エンドツーエンドのマルチモーダル文書変換のための超コンパクトな視覚言語モデル

SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

March 14, 2025
著者: Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar
cs.AI

要旨

SmolDoclingを紹介します。これはエンドツーエンドの文書変換を目指した超コンパクトな視覚言語モデルです。本モデルは、ページ全体を包括的に処理し、DocTagsという新しいユニバーサルマークアップ形式を生成します。DocTagsは、ページ要素の完全なコンテキストと位置情報を捕捉します。既存のアプローチでは、大規模な基盤モデルに依存したり、複数の専門モデルを手作業で組み合わせたパイプラインに頼ったりしていますが、SmolDoclingは、256Mパラメータの視覚言語モデルで、文書要素の内容、構造、空間的位置を正確に捕捉するエンドツーエンド変換を提供します。 SmolDoclingは、ビジネス文書、学術論文、技術レポート、特許、フォームなど、多様な文書タイプにわたって、コードリスト、表、数式、チャート、リストなどの文書特徴を正確に再現する堅牢な性能を示します。これは、一般的に科学論文に焦点を当てた従来のアプローチを大幅に拡張するものです。さらに、チャート、表、数式、コード認識のための新規の公開データセットを提供します。実験結果は、SmolDoclingがサイズが最大27倍大きい他の視覚言語モデルと競合しつつ、計算要件を大幅に削減することを示しています。モデルは現在利用可能であり、データセットはまもなく公開される予定です。
English
We introduce SmolDocling, an ultra-compact vision-language model targeting end-to-end document conversion. Our model comprehensively processes entire pages by generating DocTags, a new universal markup format that captures all page elements in their full context with location. Unlike existing approaches that rely on large foundational models, or ensemble solutions that rely on handcrafted pipelines of multiple specialized models, SmolDocling offers an end-to-end conversion for accurately capturing content, structure and spatial location of document elements in a 256M parameters vision-language model. SmolDocling exhibits robust performance in correctly reproducing document features such as code listings, tables, equations, charts, lists, and more across a diverse range of document types including business documents, academic papers, technical reports, patents, and forms -- significantly extending beyond the commonly observed focus on scientific papers. Additionally, we contribute novel publicly sourced datasets for charts, tables, equations, and code recognition. Experimental results demonstrate that SmolDocling competes with other Vision Language Models that are up to 27 times larger in size, while reducing computational requirements substantially. The model is currently available, datasets will be publicly available soon.

Summary

AI-Generated Summary

PDF10014March 17, 2025