ChatPaper.aiChatPaper

FS-DAG: Redes de Grafos de Adaptação de Domínio com Poucas Amostras para Compreensão de Documentos Visualmente Ricos

FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

May 22, 2025
Autores: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI

Resumo

Neste trabalho, propomos o Few Shot Domain Adapting Graph (FS-DAG), uma arquitetura de modelo escalável e eficiente para a compreensão de documentos visualmente ricos (VRDU) em cenários de poucos exemplos. O FS-DAG aproveita backbones específicos de domínio e de linguagem/visão dentro de uma estrutura modular para se adaptar a diversos tipos de documentos com um mínimo de dados. O modelo é robusto a desafios práticos, como o tratamento de erros de OCR, erros ortográficos e mudanças de domínio, que são críticos em implantações do mundo real. O FS-DAG é altamente performático com menos de 90 milhões de parâmetros, tornando-o adequado para aplicações complexas do mundo real em tarefas de Extração de Informação (IE) onde os recursos computacionais são limitados. Demonstramos a capacidade do FS-DAG por meio de experimentos extensos para a tarefa de extração de informações, mostrando melhorias significativas na velocidade de convergência e no desempenho em comparação com métodos state-of-the-art. Além disso, este trabalho destaca o progresso contínuo no desenvolvimento de modelos menores e mais eficientes que não comprometem o desempenho. Código: https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable and efficient model architecture for visually rich document understanding (VRDU) in few-shot settings. FS-DAG leverages domain-specific and language/vision specific backbones within a modular framework to adapt to diverse document types with minimal data. The model is robust to practical challenges such as handling OCR errors, misspellings, and domain shifts, which are critical in real-world deployments. FS-DAG is highly performant with less than 90M parameters, making it well-suited for complex real-world applications for Information Extraction (IE) tasks where computational resources are limited. We demonstrate FS-DAG's capability through extensive experiments for information extraction task, showing significant improvements in convergence speed and performance compared to state-of-the-art methods. Additionally, this work highlights the ongoing progress in developing smaller, more efficient models that do not compromise on performance. Code : https://github.com/oracle-samples/fs-dag
PDF222May 29, 2025