GuideX: ゼロショット情報抽出のためのガイド付き合成データ生成
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
May 31, 2025
著者: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI
要旨
情報抽出(IE)システムは伝統的にドメイン固有であり、専門家によるスキーマ設計、データアノテーション、モデルトレーニングといった高コストな適応を必要とします。大規模言語モデルはゼロショットIEにおいて有望な結果を示していますが、ラベル定義が異なる未知のドメインでは性能が大幅に低下します。本論文では、ドメイン固有のスキーマを自動的に定義し、ガイドラインを推論し、合成ラベル付きインスタンスを生成することで、ドメイン外での汎化性能を向上させる新手法GUIDEXを提案します。Llama 3.1をGUIDEXでファインチューニングすることで、7つのゼロショット固有表現認識ベンチマークにおいて新たな最先端を達成しました。GUIDEXでトレーニングされたモデルは、人間によるラベル付きデータなしで従来の手法よりも最大7 F1ポイント向上し、それを組み合わせた場合にはさらに約2 F1ポイント高くなりました。GUIDEXでトレーニングされたモデルは、複雑なドメイン固有のアノテーションスキーマに対する理解が強化されていることが示されています。コード、モデル、および合成データセットはneilus03.github.io/guidex.comで公開されています。
English
Information Extraction (IE) systems are traditionally domain-specific,
requiring costly adaptation that involves expert schema design, data
annotation, and model training. While Large Language Models have shown promise
in zero-shot IE, performance degrades significantly in unseen domains where
label definitions differ. This paper introduces GUIDEX, a novel method that
automatically defines domain-specific schemas, infers guidelines, and generates
synthetically labeled instances, allowing for better out-of-domain
generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art
across seven zeroshot Named Entity Recognition benchmarks. Models trained with
GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data,
and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX
demonstrate enhanced comprehension of complex, domain-specific annotation
schemas. Code, models, and synthetic datasets are available at
neilus03.github.io/guidex.com