ChatPaper.aiChatPaper

GuideX: Geführte synthetische Datengenerierung für Zero-Shot Informationsextraktion

GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31, 2025
Autoren: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI

Zusammenfassung

Informationsextraktionssysteme (IE) sind traditionell domänenspezifisch und erfordern eine kostspielige Anpassung, die das Design von Experten-Schemata, Datenannotation und Modelltraining umfasst. Während große Sprachmodelle vielversprechende Ergebnisse in der Null-Shot-Informationsextraktion gezeigt haben, verschlechtert sich die Leistung in unbekannten Domänen, in denen sich die Label-Definitionen unterscheiden, erheblich. Dieses Papier stellt GUIDEX vor, eine neuartige Methode, die automatisch domänenspezifische Schemata definiert, Richtlinien ableitet und synthetisch annotierte Instanzen generiert, wodurch eine bessere Generalisierung über Domänen hinweg ermöglicht wird. Die Feinabstimmung von Llama 3.1 mit GUIDEX setzt einen neuen Maßstab in sieben Null-Shot-Named-Entity-Recognition-Benchmarks. Modelle, die mit GUIDEX trainiert wurden, erzielen bis zu 7 F1-Punkte mehr als bisherige Methoden ohne menschlich annotierte Daten und fast 2 F1-Punkte mehr, wenn sie damit kombiniert werden. Modelle, die auf GUIDEX trainiert wurden, zeigen ein verbessertes Verständnis für komplexe, domänenspezifische Annotationsschemata. Code, Modelle und synthetische Datensätze sind unter neilus03.github.io/guidex.com verfügbar.
English
Information Extraction (IE) systems are traditionally domain-specific, requiring costly adaptation that involves expert schema design, data annotation, and model training. While Large Language Models have shown promise in zero-shot IE, performance degrades significantly in unseen domains where label definitions differ. This paper introduces GUIDEX, a novel method that automatically defines domain-specific schemas, infers guidelines, and generates synthetically labeled instances, allowing for better out-of-domain generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art across seven zeroshot Named Entity Recognition benchmarks. Models trained with GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data, and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX demonstrate enhanced comprehension of complex, domain-specific annotation schemas. Code, models, and synthetic datasets are available at neilus03.github.io/guidex.com
PDF32June 9, 2025