ChatPaper.aiChatPaper

CommonForms : Un vaste ensemble de données diversifié pour la détection de champs de formulaire

CommonForms: A Large, Diverse Dataset for Form Field Detection

September 20, 2025
papers.authors: Joe Barrow
cs.AI

papers.abstract

Cet article présente CommonForms, un jeu de données à l'échelle du web pour la détection de champs de formulaire. Il aborde le problème de la détection de champs de formulaire comme un problème de détection d'objets : étant donné une image d'une page, prédire l'emplacement et le type (Champ de texte, Bouton de choix, Signature) des champs de formulaire. Le jeu de données est construit en filtrant Common Crawl pour identifier les PDF contenant des éléments remplissables. À partir de 8 millions de documents, le processus de filtrage permet d'obtenir un jeu de données final d'environ 55 000 documents, comprenant plus de 450 000 pages. L'analyse montre que le jeu de données contient un mélange diversifié de langues et de domaines ; un tiers des pages sont en langues autres que l'anglais, et parmi les 14 domaines classifiés, aucun domaine ne représente plus de 25 % du jeu de données. Par ailleurs, cet article présente une famille de détecteurs de champs de formulaire, FFDNet-Small et FFDNet-Large, qui atteignent une très haute précision moyenne sur l'ensemble de test de CommonForms. Chaque modèle a coûté moins de 500 dollars à entraîner. Les résultats d'ablation montrent que des entrées haute résolution sont cruciales pour une détection de haute qualité des champs de formulaire, et que le processus de nettoyage améliore l'efficacité des données par rapport à l'utilisation de tous les PDF contenant des champs remplissables dans Common Crawl. Une analyse qualitative montre qu'ils surpassent un lecteur PDF populaire et commercialement disponible capable de préparer des formulaires. Contrairement aux solutions commerciales les plus populaires, FFDNet peut prédire des cases à cocher en plus des champs de texte et de signature. À notre connaissance, il s'agit du premier jeu de données à grande échelle publié pour la détection de champs de formulaire, ainsi que des premiers modèles open source. Le jeu de données, les modèles et le code seront disponibles à l'adresse https://github.com/jbarrow/commonforms.
English
This paper introduces CommonForms, a web-scale dataset for form field detection. It casts the problem of form field detection as object detection: given an image of a page, predict the location and type (Text Input, Choice Button, Signature) of form fields. The dataset is constructed by filtering Common Crawl to find PDFs that have fillable elements. Starting with 8 million documents, the filtering process is used to arrive at a final dataset of roughly 55k documents that have over 450k pages. Analysis shows that the dataset contains a diverse mixture of languages and domains; one third of the pages are non-English, and among the 14 classified domains, no domain makes up more than 25% of the dataset. In addition, this paper presents a family of form field detectors, FFDNet-Small and FFDNet-Large, which attain a very high average precision on the CommonForms test set. Each model cost less than $500 to train. Ablation results show that high-resolution inputs are crucial for high-quality form field detection, and that the cleaning process improves data efficiency over using all PDFs that have fillable fields in Common Crawl. A qualitative analysis shows that they outperform a popular, commercially available PDF reader that can prepare forms. Unlike the most popular commercially available solutions, FFDNet can predict checkboxes in addition to text and signature fields. This is, to our knowledge, the first large scale dataset released for form field detection, as well as the first open source models. The dataset, models, and code will be released at https://github.com/jbarrow/commonforms
PDF22September 24, 2025