CommonForms: Een grote, diverse dataset voor het detecteren van formuliervelden
CommonForms: A Large, Diverse Dataset for Form Field Detection
September 20, 2025
Auteurs: Joe Barrow
cs.AI
Samenvatting
Dit artikel introduceert CommonForms, een web-schaal dataset voor het detecteren van formuliervelden. Het behandelt het probleem van formulierveld-detectie als objectdetectie: gegeven een afbeelding van een pagina, voorspel de locatie en het type (Tekstinvoer, Keuzeknop, Handtekening) van formuliervelden. De dataset is samengesteld door Common Crawl te filteren om PDF's te vinden die invulbare elementen bevatten. Beginnend met 8 miljoen documenten, wordt het filterproces gebruikt om te komen tot een uiteindelijke dataset van ongeveer 55k documenten die meer dan 450k pagina's bevatten. Analyse toont aan dat de dataset een diverse mix van talen en domeinen bevat; een derde van de pagina's is niet-Engels, en onder de 14 geclassificeerde domeinen maakt geen enkel domein meer dan 25% van de dataset uit.
Daarnaast presenteert dit artikel een familie van formulierveld-detectoren, FFDNet-Klein en FFDNet-Groot, die een zeer hoge gemiddelde precisie behalen op de CommonForms-testset. Elk model kostte minder dan $500 om te trainen. Ablatieresultaten tonen aan dat invoer met hoge resolutie cruciaal is voor hoogwaardige formulierveld-detectie, en dat het schoonmaakproces de data-efficiëntie verbetert ten opzichte van het gebruik van alle PDF's met invulbare velden in Common Crawl. Een kwalitatieve analyse laat zien dat ze een populaire, commercieel beschikbare PDF-lezer die formulieren kan voorbereiden, overtreffen. In tegenstelling tot de meest populaire commercieel beschikbare oplossingen, kan FFDNet naast tekst- en handtekeningvelden ook selectievakjes voorspellen. Dit is, voor zover wij weten, de eerste grootschalige dataset die is vrijgegeven voor formulierveld-detectie, evenals de eerste open source modellen. De dataset, modellen en code zullen worden vrijgegeven op https://github.com/jbarrow/commonforms.
English
This paper introduces CommonForms, a web-scale dataset for form field
detection. It casts the problem of form field detection as object detection:
given an image of a page, predict the location and type (Text Input, Choice
Button, Signature) of form fields. The dataset is constructed by filtering
Common Crawl to find PDFs that have fillable elements. Starting with 8 million
documents, the filtering process is used to arrive at a final dataset of
roughly 55k documents that have over 450k pages. Analysis shows that the
dataset contains a diverse mixture of languages and domains; one third of the
pages are non-English, and among the 14 classified domains, no domain makes up
more than 25% of the dataset.
In addition, this paper presents a family of form field detectors,
FFDNet-Small and FFDNet-Large, which attain a very high average precision on
the CommonForms test set. Each model cost less than $500 to train. Ablation
results show that high-resolution inputs are crucial for high-quality form
field detection, and that the cleaning process improves data efficiency over
using all PDFs that have fillable fields in Common Crawl. A qualitative
analysis shows that they outperform a popular, commercially available PDF
reader that can prepare forms. Unlike the most popular commercially available
solutions, FFDNet can predict checkboxes in addition to text and signature
fields. This is, to our knowledge, the first large scale dataset released for
form field detection, as well as the first open source models. The dataset,
models, and code will be released at https://github.com/jbarrow/commonforms