ChatPaper.aiChatPaper

FS-DAG: Reti Grafiche per l'Adattamento a Dominio con Pochi Esempi nella Comprensione di Documenti Visivamente Ricchi

FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding

May 22, 2025
Autori: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI

Abstract

In questo lavoro, proponiamo Few Shot Domain Adapting Graph (FS-DAG), un'architettura di modello scalabile ed efficiente per la comprensione di documenti visivamente ricchi (VRDU) in contesti few-shot. FS-DAG sfrutta backbone specifici per dominio e per linguaggio/visione all'interno di un framework modulare per adattarsi a diversi tipi di documenti con dati minimi. Il modello è robusto rispetto a sfide pratiche come la gestione di errori OCR, refusi e cambiamenti di dominio, aspetti critici nelle implementazioni reali. FS-DAG è altamente performante con meno di 90 milioni di parametri, rendendolo adatto a complesse applicazioni reali per attività di estrazione di informazioni (IE) in contesti con risorse computazionali limitate. Dimostriamo le capacità di FS-DAG attraverso esperimenti estesi per il compito di estrazione di informazioni, mostrando miglioramenti significativi nella velocità di convergenza e nelle prestazioni rispetto ai metodi all'avanguardia. Inoltre, questo lavoro evidenzia i progressi continui nello sviluppo di modelli più piccoli ed efficienti che non compromettono le prestazioni. Codice: https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable and efficient model architecture for visually rich document understanding (VRDU) in few-shot settings. FS-DAG leverages domain-specific and language/vision specific backbones within a modular framework to adapt to diverse document types with minimal data. The model is robust to practical challenges such as handling OCR errors, misspellings, and domain shifts, which are critical in real-world deployments. FS-DAG is highly performant with less than 90M parameters, making it well-suited for complex real-world applications for Information Extraction (IE) tasks where computational resources are limited. We demonstrate FS-DAG's capability through extensive experiments for information extraction task, showing significant improvements in convergence speed and performance compared to state-of-the-art methods. Additionally, this work highlights the ongoing progress in developing smaller, more efficient models that do not compromise on performance. Code : https://github.com/oracle-samples/fs-dag
PDF222May 29, 2025