FS-DAG: 視覚的にリッチな文書理解のためのFew Shotドメイン適応グラフネットワーク
FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding
May 22, 2025
著者: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri
cs.AI
要旨
本研究では、Few Shot Domain Adapting Graph (FS-DAG)を提案する。これは、Few-Shot設定における視覚的にリッチな文書理解(VRDU)のためのスケーラブルで効率的なモデルアーキテクチャである。FS-DAGは、モジュール型フレームワーク内でドメイン固有および言語/視覚固有のバックボーンを活用し、最小限のデータで多様な文書タイプに適応する。このモデルは、OCRエラー、誤字、ドメインシフトといった実践的な課題に対してロバストであり、実際の展開において重要な要素である。FS-DAGは9000万パラメータ未満で高い性能を発揮し、計算リソースが限られた情報抽出(IE)タスクにおける複雑な実世界アプリケーションに適している。情報抽出タスクに関する広範な実験を通じて、FS-DAGの能力を実証し、最先端の手法と比較して収束速度と性能の大幅な向上を示す。さらに、本論文は、性能を損なうことなくより小型で効率的なモデルを開発するための継続的な進展を強調する。コード: https://github.com/oracle-samples/fs-dag
English
In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable
and efficient model architecture for visually rich document understanding
(VRDU) in few-shot settings. FS-DAG leverages domain-specific and
language/vision specific backbones within a modular framework to adapt to
diverse document types with minimal data. The model is robust to practical
challenges such as handling OCR errors, misspellings, and domain shifts, which
are critical in real-world deployments. FS-DAG is highly performant with less
than 90M parameters, making it well-suited for complex real-world applications
for Information Extraction (IE) tasks where computational resources are
limited. We demonstrate FS-DAG's capability through extensive experiments for
information extraction task, showing significant improvements in convergence
speed and performance compared to state-of-the-art methods. Additionally, this
work highlights the ongoing progress in developing smaller, more efficient
models that do not compromise on performance. Code :
https://github.com/oracle-samples/fs-dagSummary
AI-Generated Summary