ChatPaper.aiChatPaper

FS-DAG : Réseaux de graphes d'adaptation de domaine en apprentissage par quelques exemples pour la compréhension de documents visuellement riches

FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

May 22, 2025
Auteurs: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI

Résumé

Dans ce travail, nous proposons Few Shot Domain Adapting Graph (FS-DAG), une architecture de modèle évolutive et efficace pour la compréhension de documents visuellement riches (VRDU) dans des contextes de few-shot. FS-DAG exploite des backbones spécifiques au domaine et spécifiques au langage/vision au sein d'un cadre modulaire pour s'adapter à divers types de documents avec un minimum de données. Le modèle est robuste face aux défis pratiques tels que la gestion des erreurs de reconnaissance optique de caractères (OCR), les fautes d'orthographe et les décalages de domaine, qui sont critiques dans les déploiements réels. FS-DAG est très performant avec moins de 90 millions de paramètres, ce qui le rend particulièrement adapté aux applications complexes du monde réel pour les tâches d'extraction d'information (IE) où les ressources computationnelles sont limitées. Nous démontrons les capacités de FS-DAG à travers des expériences approfondies pour la tâche d'extraction d'information, montrant des améliorations significatives en termes de vitesse de convergence et de performance par rapport aux méthodes de pointe. De plus, ce travail met en lumière les progrès continus dans le développement de modèles plus petits et plus efficaces qui ne compromettent pas la performance. Code : https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable and efficient model architecture for visually rich document understanding (VRDU) in few-shot settings. FS-DAG leverages domain-specific and language/vision specific backbones within a modular framework to adapt to diverse document types with minimal data. The model is robust to practical challenges such as handling OCR errors, misspellings, and domain shifts, which are critical in real-world deployments. FS-DAG is highly performant with less than 90M parameters, making it well-suited for complex real-world applications for Information Extraction (IE) tasks where computational resources are limited. We demonstrate FS-DAG's capability through extensive experiments for information extraction task, showing significant improvements in convergence speed and performance compared to state-of-the-art methods. Additionally, this work highlights the ongoing progress in developing smaller, more efficient models that do not compromise on performance. Code : https://github.com/oracle-samples/fs-dag

Summary

AI-Generated Summary

PDF222May 29, 2025