FS-DAG: Redes de Grafos de Adaptação de Domínio com Poucas Amostras para Compreensão de Documentos Visualmente Ricos
FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding
May 22, 2025
Autores: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI
Resumo
Neste trabalho, propomos o Few Shot Domain Adapting Graph (FS-DAG), uma arquitetura de modelo escalável e eficiente para a compreensão de documentos visualmente ricos (VRDU) em cenários de poucos exemplos. O FS-DAG aproveita backbones específicos de domínio e de linguagem/visão dentro de uma estrutura modular para se adaptar a diversos tipos de documentos com um mínimo de dados. O modelo é robusto a desafios práticos, como o tratamento de erros de OCR, erros ortográficos e mudanças de domínio, que são críticos em implantações do mundo real. O FS-DAG é altamente performático com menos de 90 milhões de parâmetros, tornando-o adequado para aplicações complexas do mundo real em tarefas de Extração de Informação (IE) onde os recursos computacionais são limitados. Demonstramos a capacidade do FS-DAG por meio de experimentos extensos para a tarefa de extração de informações, mostrando melhorias significativas na velocidade de convergência e no desempenho em comparação com métodos state-of-the-art. Além disso, este trabalho destaca o progresso contínuo no desenvolvimento de modelos menores e mais eficientes que não comprometem o desempenho. Código: https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable
and efficient model architecture for visually rich document understanding
(VRDU) in few-shot settings. FS-DAG leverages domain-specific and
language/vision specific backbones within a modular framework to adapt to
diverse document types with minimal data. The model is robust to practical
challenges such as handling OCR errors, misspellings, and domain shifts, which
are critical in real-world deployments. FS-DAG is highly performant with less
than 90M parameters, making it well-suited for complex real-world applications
for Information Extraction (IE) tasks where computational resources are
limited. We demonstrate FS-DAG's capability through extensive experiments for
information extraction task, showing significant improvements in convergence
speed and performance compared to state-of-the-art methods. Additionally, this
work highlights the ongoing progress in developing smaller, more efficient
models that do not compromise on performance. Code :
https://github.com/oracle-samples/fs-dag