FS-DAG: Few-Shot-Domain-Adaptive Graph-Netzwerke für das Verständnis visuell reicher Dokumente
FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding
May 22, 2025
Autoren: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI
Zusammenfassung
In dieser Arbeit stellen wir Few Shot Domain Adapting Graph (FS-DAG) vor, eine skalierbare und effiziente Modellarchitektur für das Verständnis visuell reicher Dokumente (VRDU) in Few-Shot-Szenarien. FS-DAG nutzt domänenspezifische sowie sprach- und bildspezifische Backbones innerhalb eines modularen Frameworks, um sich mit minimalen Daten an verschiedene Dokumenttypen anzupassen. Das Modell ist robust gegenüber praktischen Herausforderungen wie der Handhabung von OCR-Fehlern, Rechtschreibfehlern und Domänenverschiebungen, die in realen Anwendungen von entscheidender Bedeutung sind. FS-DAG ist mit weniger als 90M Parametern äußerst leistungsfähig und eignet sich daher besonders für komplexe reale Anwendungen im Bereich der Informationsextraktion (IE), bei denen die Rechenressourcen begrenzt sind. Wir demonstrieren die Fähigkeiten von FS-DAG durch umfangreiche Experimente zur Informationsextraktion und zeigen signifikante Verbesserungen in der Konvergenzgeschwindigkeit und Leistung im Vergleich zu state-of-the-art Methoden. Darüber hinaus unterstreicht diese Arbeit die fortlaufenden Fortschritte bei der Entwicklung kleinerer, effizienterer Modelle, die keine Kompromisse bei der Leistung eingehen. Code: https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable
and efficient model architecture for visually rich document understanding
(VRDU) in few-shot settings. FS-DAG leverages domain-specific and
language/vision specific backbones within a modular framework to adapt to
diverse document types with minimal data. The model is robust to practical
challenges such as handling OCR errors, misspellings, and domain shifts, which
are critical in real-world deployments. FS-DAG is highly performant with less
than 90M parameters, making it well-suited for complex real-world applications
for Information Extraction (IE) tasks where computational resources are
limited. We demonstrate FS-DAG's capability through extensive experiments for
information extraction task, showing significant improvements in convergence
speed and performance compared to state-of-the-art methods. Additionally, this
work highlights the ongoing progress in developing smaller, more efficient
models that do not compromise on performance. Code :
https://github.com/oracle-samples/fs-dagSummary
AI-Generated Summary