CommonForms: Ein umfangreicher, vielfältiger Datensatz zur Erkennung von Formularfeldern
CommonForms: A Large, Diverse Dataset for Form Field Detection
September 20, 2025
papers.authors: Joe Barrow
cs.AI
papers.abstract
Dieses Papier stellt CommonForms vor, ein web-skaliges Datenset für die Erkennung von Formularfeldern. Es formuliert das Problem der Formularfelderkennung als Objekterkennung: Gegeben ein Bild einer Seite, sollen die Position und der Typ (Texteingabe, Auswahlschaltfläche, Unterschrift) von Formularfeldern vorhergesagt werden. Das Datenset wurde durch die Filterung von Common Crawl erstellt, um PDFs mit ausfüllbaren Elementen zu finden. Ausgehend von 8 Millionen Dokumenten wurde der Filterungsprozess verwendet, um ein finales Datenset von etwa 55.000 Dokumenten mit über 450.000 Seiten zu erhalten. Analysen zeigen, dass das Datenset eine vielfältige Mischung von Sprachen und Domänen enthält; ein Drittel der Seiten ist nicht in Englisch, und unter den 14 klassifizierten Domänen macht keine Domäne mehr als 25 % des Datensets aus.
Zusätzlich präsentiert dieses Papier eine Familie von Formularfelderkennern, FFDNet-Small und FFDNet-Large, die eine sehr hohe durchschnittliche Präzision auf dem CommonForms-Testset erreichen. Jedes Modell kostete weniger als 500 US-Dollar für das Training. Ablationsergebnisse zeigen, dass hochauflösende Eingaben entscheidend für eine hochwertige Formularfelderkennung sind und dass der Bereinigungsprozess die Dateneffizienz im Vergleich zur Verwendung aller PDFs mit ausfüllbaren Feldern in Common Crawl verbessert. Eine qualitative Analyse zeigt, dass sie einen beliebten, kommerziell erhältlichen PDF-Reader, der Formulare vorbereiten kann, übertreffen. Im Gegensatz zu den bekanntesten kommerziell erhältlichen Lösungen kann FFDNet zusätzlich zu Text- und Unterschriftfeldern auch Kontrollkästchen vorhersagen. Dies ist, unseres Wissens nach, das erste groß angelegte Datenset, das für die Formularfelderkennung veröffentlicht wurde, sowie die ersten Open-Source-Modelle. Das Datenset, die Modelle und der Code werden unter https://github.com/jbarrow/commonforms veröffentlicht.
English
This paper introduces CommonForms, a web-scale dataset for form field
detection. It casts the problem of form field detection as object detection:
given an image of a page, predict the location and type (Text Input, Choice
Button, Signature) of form fields. The dataset is constructed by filtering
Common Crawl to find PDFs that have fillable elements. Starting with 8 million
documents, the filtering process is used to arrive at a final dataset of
roughly 55k documents that have over 450k pages. Analysis shows that the
dataset contains a diverse mixture of languages and domains; one third of the
pages are non-English, and among the 14 classified domains, no domain makes up
more than 25% of the dataset.
In addition, this paper presents a family of form field detectors,
FFDNet-Small and FFDNet-Large, which attain a very high average precision on
the CommonForms test set. Each model cost less than $500 to train. Ablation
results show that high-resolution inputs are crucial for high-quality form
field detection, and that the cleaning process improves data efficiency over
using all PDFs that have fillable fields in Common Crawl. A qualitative
analysis shows that they outperform a popular, commercially available PDF
reader that can prepare forms. Unlike the most popular commercially available
solutions, FFDNet can predict checkboxes in addition to text and signature
fields. This is, to our knowledge, the first large scale dataset released for
form field detection, as well as the first open source models. The dataset,
models, and code will be released at https://github.com/jbarrow/commonforms