FS-DAG: Redes de Grafos de Adaptación de Dominio con Pocos Ejemplos para la Comprensión de Documentos Visualmente Ricos
FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding
May 22, 2025
Autores: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI
Resumen
En este trabajo, proponemos Few Shot Domain Adapting Graph (FS-DAG), una arquitectura de modelo escalable y eficiente para la comprensión de documentos visualmente ricos (VRDU, por sus siglas en inglés) en entornos de pocos ejemplos. FS-DAG aprovecha backbones específicos de dominio y específicos de lenguaje/visión dentro de un marco modular para adaptarse a diversos tipos de documentos con datos mínimos. El modelo es robusto frente a desafíos prácticos, como el manejo de errores de OCR, errores ortográficos y cambios de dominio, que son críticos en implementaciones del mundo real. FS-DAG es altamente eficiente con menos de 90M de parámetros, lo que lo hace ideal para aplicaciones complejas del mundo real en tareas de Extracción de Información (IE, por sus siglas en inglés) donde los recursos computacionales son limitados. Demostramos la capacidad de FS-DAG a través de experimentos exhaustivos para la tarea de extracción de información, mostrando mejoras significativas en la velocidad de convergencia y el rendimiento en comparación con métodos de vanguardia. Además, este trabajo destaca el progreso continuo en el desarrollo de modelos más pequeños y eficientes que no comprometen el rendimiento. Código: https://github.com/oracle-samples/fs-dag.
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable
and efficient model architecture for visually rich document understanding
(VRDU) in few-shot settings. FS-DAG leverages domain-specific and
language/vision specific backbones within a modular framework to adapt to
diverse document types with minimal data. The model is robust to practical
challenges such as handling OCR errors, misspellings, and domain shifts, which
are critical in real-world deployments. FS-DAG is highly performant with less
than 90M parameters, making it well-suited for complex real-world applications
for Information Extraction (IE) tasks where computational resources are
limited. We demonstrate FS-DAG's capability through extensive experiments for
information extraction task, showing significant improvements in convergence
speed and performance compared to state-of-the-art methods. Additionally, this
work highlights the ongoing progress in developing smaller, more efficient
models that do not compromise on performance. Code :
https://github.com/oracle-samples/fs-dagSummary
AI-Generated Summary