ChatPaper.aiChatPaper

CommonForms: Um Grande e Diversificado Conjunto de Dados para Detecção de Campos de Formulário

CommonForms: A Large, Diverse Dataset for Form Field Detection

September 20, 2025
Autores: Joe Barrow
cs.AI

Resumo

Este artigo apresenta o CommonForms, um conjunto de dados em escala web para detecção de campos de formulários. Ele aborda o problema de detecção de campos de formulários como detecção de objetos: dada uma imagem de uma página, prever a localização e o tipo (Entrada de Texto, Botão de Escolha, Assinatura) dos campos de formulários. O conjunto de dados foi construído filtrando o Common Crawl para encontrar PDFs que possuem elementos preenchíveis. Começando com 8 milhões de documentos, o processo de filtragem foi utilizado para chegar a um conjunto de dados final de aproximadamente 55 mil documentos, que contêm mais de 450 mil páginas. A análise mostra que o conjunto de dados contém uma mistura diversificada de idiomas e domínios; um terço das páginas são em idiomas diferentes do inglês, e entre os 14 domínios classificados, nenhum domínio representa mais de 25% do conjunto de dados. Além disso, este artigo apresenta uma família de detectores de campos de formulários, FFDNet-Small e FFDNet-Large, que alcançam uma precisão média muito alta no conjunto de testes do CommonForms. Cada modelo custou menos de US$ 500 para ser treinado. Resultados de ablação mostram que entradas de alta resolução são cruciais para a detecção de alta qualidade de campos de formulários, e que o processo de limpeza melhora a eficiência dos dados em comparação com o uso de todos os PDFs que possuem campos preenchíveis no Common Crawl. Uma análise qualitativa mostra que eles superam um leitor de PDF popular e comercialmente disponível que pode preparar formulários. Diferente das soluções comercialmente disponíveis mais populares, o FFDNet pode prever caixas de seleção, além de campos de texto e assinatura. Este é, até onde sabemos, o primeiro conjunto de dados em grande escala lançado para detecção de campos de formulários, bem como os primeiros modelos de código aberto. O conjunto de dados, os modelos e o código serão disponibilizados em https://github.com/jbarrow/commonforms.
English
This paper introduces CommonForms, a web-scale dataset for form field detection. It casts the problem of form field detection as object detection: given an image of a page, predict the location and type (Text Input, Choice Button, Signature) of form fields. The dataset is constructed by filtering Common Crawl to find PDFs that have fillable elements. Starting with 8 million documents, the filtering process is used to arrive at a final dataset of roughly 55k documents that have over 450k pages. Analysis shows that the dataset contains a diverse mixture of languages and domains; one third of the pages are non-English, and among the 14 classified domains, no domain makes up more than 25% of the dataset. In addition, this paper presents a family of form field detectors, FFDNet-Small and FFDNet-Large, which attain a very high average precision on the CommonForms test set. Each model cost less than $500 to train. Ablation results show that high-resolution inputs are crucial for high-quality form field detection, and that the cleaning process improves data efficiency over using all PDFs that have fillable fields in Common Crawl. A qualitative analysis shows that they outperform a popular, commercially available PDF reader that can prepare forms. Unlike the most popular commercially available solutions, FFDNet can predict checkboxes in addition to text and signature fields. This is, to our knowledge, the first large scale dataset released for form field detection, as well as the first open source models. The dataset, models, and code will be released at https://github.com/jbarrow/commonforms
PDF182September 24, 2025