ChatPaper.aiChatPaper

FS-DAG: Графовые сети с адаптацией к домену на основе малого числа примеров для понимания визуально насыщенных документов

FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

May 22, 2025
Авторы: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI

Аннотация

В данной работе мы представляем Few Shot Domain Adapting Graph (FS-DAG), масштабируемую и эффективную архитектуру модели для понимания визуально насыщенных документов (VRDU) в условиях ограниченного количества данных. FS-DAG использует специализированные для домена и языка/визуальных данных базовые модели в рамках модульной структуры, что позволяет адаптироваться к различным типам документов с минимальным объемом данных. Модель устойчива к практическим вызовам, таким как обработка ошибок OCR, опечаток и сдвигов домена, что критически важно для реальных применений. FS-DAG демонстрирует высокую производительность при менее чем 90 миллионах параметров, что делает её хорошо подходящей для сложных задач извлечения информации (IE) в условиях ограниченных вычислительных ресурсов. Мы демонстрируем возможности FS-DAG через обширные эксперименты по извлечению информации, показывая значительные улучшения в скорости сходимости и производительности по сравнению с современными методами. Кроме того, данная работа подчеркивает прогресс в разработке более компактных и эффективных моделей, которые не жертвуют производительностью. Код: https://github.com/oracle-samples/fs-dag.
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable and efficient model architecture for visually rich document understanding (VRDU) in few-shot settings. FS-DAG leverages domain-specific and language/vision specific backbones within a modular framework to adapt to diverse document types with minimal data. The model is robust to practical challenges such as handling OCR errors, misspellings, and domain shifts, which are critical in real-world deployments. FS-DAG is highly performant with less than 90M parameters, making it well-suited for complex real-world applications for Information Extraction (IE) tasks where computational resources are limited. We demonstrate FS-DAG's capability through extensive experiments for information extraction task, showing significant improvements in convergence speed and performance compared to state-of-the-art methods. Additionally, this work highlights the ongoing progress in developing smaller, more efficient models that do not compromise on performance. Code : https://github.com/oracle-samples/fs-dag
PDF222May 29, 2025