ChatPaper.aiChatPaper

FS-DAG: Few-Shot-Domain-Adaptive Graph-Netzwerke für das Verständnis visuell reicher Dokumente

FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

May 22, 2025
Autoren: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir Few Shot Domain Adapting Graph (FS-DAG) vor, eine skalierbare und effiziente Modellarchitektur für das Verständnis visuell reicher Dokumente (VRDU) in Few-Shot-Szenarien. FS-DAG nutzt domänenspezifische sowie sprach- und bildspezifische Backbones innerhalb eines modularen Frameworks, um sich mit minimalen Daten an verschiedene Dokumenttypen anzupassen. Das Modell ist robust gegenüber praktischen Herausforderungen wie der Handhabung von OCR-Fehlern, Rechtschreibfehlern und Domänenverschiebungen, die in realen Anwendungen von entscheidender Bedeutung sind. FS-DAG ist mit weniger als 90M Parametern äußerst leistungsfähig und eignet sich daher besonders für komplexe reale Anwendungen im Bereich der Informationsextraktion (IE), bei denen die Rechenressourcen begrenzt sind. Wir demonstrieren die Fähigkeiten von FS-DAG durch umfangreiche Experimente zur Informationsextraktion und zeigen signifikante Verbesserungen in der Konvergenzgeschwindigkeit und Leistung im Vergleich zu state-of-the-art Methoden. Darüber hinaus unterstreicht diese Arbeit die fortlaufenden Fortschritte bei der Entwicklung kleinerer, effizienterer Modelle, die keine Kompromisse bei der Leistung eingehen. Code: https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable and efficient model architecture for visually rich document understanding (VRDU) in few-shot settings. FS-DAG leverages domain-specific and language/vision specific backbones within a modular framework to adapt to diverse document types with minimal data. The model is robust to practical challenges such as handling OCR errors, misspellings, and domain shifts, which are critical in real-world deployments. FS-DAG is highly performant with less than 90M parameters, making it well-suited for complex real-world applications for Information Extraction (IE) tasks where computational resources are limited. We demonstrate FS-DAG's capability through extensive experiments for information extraction task, showing significant improvements in convergence speed and performance compared to state-of-the-art methods. Additionally, this work highlights the ongoing progress in developing smaller, more efficient models that do not compromise on performance. Code : https://github.com/oracle-samples/fs-dag

Summary

AI-Generated Summary

PDF222May 29, 2025