ChatPaper.aiChatPaper

CommonForms: Un conjunto de datos extenso y diverso para la detección de campos de formularios

CommonForms: A Large, Diverse Dataset for Form Field Detection

September 20, 2025
Autores: Joe Barrow
cs.AI

Resumen

Este artículo presenta CommonForms, un conjunto de datos a escala web para la detección de campos de formularios. Plantea el problema de la detección de campos de formularios como un problema de detección de objetos: dada una imagen de una página, predecir la ubicación y el tipo (Entrada de Texto, Botón de Selección, Firma) de los campos de formularios. El conjunto de datos se construye filtrando Common Crawl para encontrar PDFs que contengan elementos rellenables. Partiendo de 8 millones de documentos, el proceso de filtrado se utiliza para obtener un conjunto de datos final de aproximadamente 55k documentos que contienen más de 450k páginas. El análisis muestra que el conjunto de datos contiene una mezcla diversa de idiomas y dominios; un tercio de las páginas no están en inglés, y entre los 14 dominios clasificados, ningún dominio representa más del 25% del conjunto de datos. Además, este artículo presenta una familia de detectores de campos de formularios, FFDNet-Small y FFDNet-Large, que alcanzan una precisión promedio muy alta en el conjunto de pruebas de CommonForms. Cada modelo costó menos de $500 en entrenamiento. Los resultados de ablación muestran que las entradas de alta resolución son cruciales para una detección de campos de formularios de alta calidad, y que el proceso de limpieza mejora la eficiencia de los datos en comparación con el uso de todos los PDFs que contienen campos rellenables en Common Crawl. Un análisis cualitativo muestra que superan a un popular lector de PDFs disponible comercialmente que puede preparar formularios. A diferencia de las soluciones comerciales más populares, FFDNet puede predecir casillas de verificación además de campos de texto y firma. Este es, hasta donde sabemos, el primer conjunto de datos a gran escala publicado para la detección de campos de formularios, así como los primeros modelos de código abierto. El conjunto de datos, los modelos y el código se publicarán en https://github.com/jbarrow/commonforms.
English
This paper introduces CommonForms, a web-scale dataset for form field detection. It casts the problem of form field detection as object detection: given an image of a page, predict the location and type (Text Input, Choice Button, Signature) of form fields. The dataset is constructed by filtering Common Crawl to find PDFs that have fillable elements. Starting with 8 million documents, the filtering process is used to arrive at a final dataset of roughly 55k documents that have over 450k pages. Analysis shows that the dataset contains a diverse mixture of languages and domains; one third of the pages are non-English, and among the 14 classified domains, no domain makes up more than 25% of the dataset. In addition, this paper presents a family of form field detectors, FFDNet-Small and FFDNet-Large, which attain a very high average precision on the CommonForms test set. Each model cost less than $500 to train. Ablation results show that high-resolution inputs are crucial for high-quality form field detection, and that the cleaning process improves data efficiency over using all PDFs that have fillable fields in Common Crawl. A qualitative analysis shows that they outperform a popular, commercially available PDF reader that can prepare forms. Unlike the most popular commercially available solutions, FFDNet can predict checkboxes in addition to text and signature fields. This is, to our knowledge, the first large scale dataset released for form field detection, as well as the first open source models. The dataset, models, and code will be released at https://github.com/jbarrow/commonforms
PDF22September 24, 2025