CommonForms: Большой и разнообразный набор данных для обнаружения полей форм
CommonForms: A Large, Diverse Dataset for Form Field Detection
September 20, 2025
Авторы: Joe Barrow
cs.AI
Аннотация
В данной статье представлен CommonForms, крупномасштабный набор данных для обнаружения полей форм. Задача обнаружения полей форм формулируется как задача обнаружения объектов: по изображению страницы необходимо предсказать местоположение и тип (Текстовое поле, Кнопка выбора, Подпись) полей формы. Набор данных создан путем фильтрации Common Crawl для поиска PDF-документов, содержащих заполняемые элементы. Начиная с 8 миллионов документов, процесс фильтрации позволил получить финальный набор данных, состоящий из примерно 55 тысяч документов, содержащих более 450 тысяч страниц. Анализ показывает, что набор данных включает разнообразное сочетание языков и доменов; одна треть страниц не на английском языке, а среди 14 классифицированных доменов ни один не составляет более 25% набора данных.
Кроме того, в статье представлено семейство детекторов полей форм, FFDNet-Small и FFDNet-Large, которые достигают очень высокой средней точности на тестовом наборе CommonForms. Обучение каждой модели обошлось менее чем в 500 долларов. Результаты абляционных исследований показывают, что высокое разрешение входных данных критически важно для качественного обнаружения полей форм, а процесс очистки данных повышает их эффективность по сравнению с использованием всех PDF-документов с заполняемыми полями из Common Crawl. Качественный анализ демонстрирует, что эти модели превосходят популярное коммерческое решение для подготовки форм в PDF-ридерах. В отличие от наиболее популярных коммерческих решений, FFDNet способен предсказывать не только текстовые поля и поля для подписи, но и флажки. Насколько нам известно, это первый крупномасштабный набор данных, выпущенный для задачи обнаружения полей форм, а также первые открытые модели. Набор данных, модели и код будут доступны по адресу https://github.com/jbarrow/commonforms.
English
This paper introduces CommonForms, a web-scale dataset for form field
detection. It casts the problem of form field detection as object detection:
given an image of a page, predict the location and type (Text Input, Choice
Button, Signature) of form fields. The dataset is constructed by filtering
Common Crawl to find PDFs that have fillable elements. Starting with 8 million
documents, the filtering process is used to arrive at a final dataset of
roughly 55k documents that have over 450k pages. Analysis shows that the
dataset contains a diverse mixture of languages and domains; one third of the
pages are non-English, and among the 14 classified domains, no domain makes up
more than 25% of the dataset.
In addition, this paper presents a family of form field detectors,
FFDNet-Small and FFDNet-Large, which attain a very high average precision on
the CommonForms test set. Each model cost less than $500 to train. Ablation
results show that high-resolution inputs are crucial for high-quality form
field detection, and that the cleaning process improves data efficiency over
using all PDFs that have fillable fields in Common Crawl. A qualitative
analysis shows that they outperform a popular, commercially available PDF
reader that can prepare forms. Unlike the most popular commercially available
solutions, FFDNet can predict checkboxes in addition to text and signature
fields. This is, to our knowledge, the first large scale dataset released for
form field detection, as well as the first open source models. The dataset,
models, and code will be released at https://github.com/jbarrow/commonforms