ChatPaper.aiChatPaper

CommonForms: Un ampio e diversificato dataset per il rilevamento dei campi dei moduli

CommonForms: A Large, Diverse Dataset for Form Field Detection

September 20, 2025
Autori: Joe Barrow
cs.AI

Abstract

Questo articolo introduce CommonForms, un dataset su scala web per il rilevamento di campi di modulo. Trasforma il problema del rilevamento dei campi di modulo in un problema di rilevamento di oggetti: data un'immagine di una pagina, prevedere la posizione e il tipo (Input di Testo, Pulsante di Scelta, Firma) dei campi di modulo. Il dataset è stato costruito filtrando Common Crawl per trovare PDF che contengono elementi compilabili. Partendo da 8 milioni di documenti, il processo di filtraggio è stato utilizzato per ottenere un dataset finale di circa 55k documenti che contengono oltre 450k pagine. L'analisi mostra che il dataset contiene una miscela diversificata di lingue e domini; un terzo delle pagine è in lingue diverse dall'inglese, e tra i 14 domini classificati, nessun dominio rappresenta più del 25% del dataset. Inoltre, questo articolo presenta una famiglia di rilevatori di campi di modulo, FFDNet-Small e FFDNet-Large, che raggiungono una precisione media molto elevata sul set di test di CommonForms. Ogni modello è costato meno di $500 per l'addestramento. I risultati di ablazione mostrano che input ad alta risoluzione sono cruciali per un rilevamento di alta qualità dei campi di modulo, e che il processo di pulizia migliora l'efficienza dei dati rispetto all'utilizzo di tutti i PDF con campi compilabili presenti in Common Crawl. Un'analisi qualitativa mostra che superano un popolare lettore PDF commerciale in grado di preparare moduli. A differenza delle soluzioni commerciali più popolari, FFDNet può prevedere caselle di controllo oltre ai campi di testo e firma. Questo è, a nostra conoscenza, il primo dataset su larga scala rilasciato per il rilevamento dei campi di modulo, nonché i primi modelli open source. Il dataset, i modelli e il codice saranno rilasciati su https://github.com/jbarrow/commonforms.
English
This paper introduces CommonForms, a web-scale dataset for form field detection. It casts the problem of form field detection as object detection: given an image of a page, predict the location and type (Text Input, Choice Button, Signature) of form fields. The dataset is constructed by filtering Common Crawl to find PDFs that have fillable elements. Starting with 8 million documents, the filtering process is used to arrive at a final dataset of roughly 55k documents that have over 450k pages. Analysis shows that the dataset contains a diverse mixture of languages and domains; one third of the pages are non-English, and among the 14 classified domains, no domain makes up more than 25% of the dataset. In addition, this paper presents a family of form field detectors, FFDNet-Small and FFDNet-Large, which attain a very high average precision on the CommonForms test set. Each model cost less than $500 to train. Ablation results show that high-resolution inputs are crucial for high-quality form field detection, and that the cleaning process improves data efficiency over using all PDFs that have fillable fields in Common Crawl. A qualitative analysis shows that they outperform a popular, commercially available PDF reader that can prepare forms. Unlike the most popular commercially available solutions, FFDNet can predict checkboxes in addition to text and signature fields. This is, to our knowledge, the first large scale dataset released for form field detection, as well as the first open source models. The dataset, models, and code will be released at https://github.com/jbarrow/commonforms
PDF182September 24, 2025