GuideX: Begeleide synthetische datageneratie voor zero-shot informatie-extractie
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
May 31, 2025
Auteurs: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI
Samenvatting
Informatie-extractie (IE) systemen zijn traditioneel domeinspecifiek,
waardoor kostbare aanpassingen nodig zijn die expertschema-ontwerp, gegevensannotatie
en modeltraining vereisen. Hoewel grote taalmodelen potentie hebben getoond
in zero-shot IE, neemt de prestaties aanzienlijk af in onbekende domeinen waar
labeldefinities verschillen. Dit artikel introduceert GUIDEX, een nieuwe methode die
automatisch domeinspecifieke schema's definieert, richtlijnen afleidt en synthetisch
gelabelde instanties genereert, waardoor betere generalisatie buiten het domein mogelijk wordt.
Het finetunen van Llama 3.1 met GUIDEX stelt een nieuwe state-of-the-art in
zeven zero-shot Named Entity Recognition benchmarks. Modellen getraind met GUIDEX
behalen tot 7 F1-punten meer dan vorige methoden zonder door mensen gelabelde gegevens,
en bijna 2 F1-punten hoger wanneer ze hiermee gecombineerd worden. Modellen getraind op GUIDEX
tonen een verbeterd begrip van complexe, domeinspecifieke annotatieschema's. Code, modellen
en synthetische datasets zijn beschikbaar op neilus03.github.io/guidex.com.
English
Information Extraction (IE) systems are traditionally domain-specific,
requiring costly adaptation that involves expert schema design, data
annotation, and model training. While Large Language Models have shown promise
in zero-shot IE, performance degrades significantly in unseen domains where
label definitions differ. This paper introduces GUIDEX, a novel method that
automatically defines domain-specific schemas, infers guidelines, and generates
synthetically labeled instances, allowing for better out-of-domain
generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art
across seven zeroshot Named Entity Recognition benchmarks. Models trained with
GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data,
and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX
demonstrate enhanced comprehension of complex, domain-specific annotation
schemas. Code, models, and synthetic datasets are available at
neilus03.github.io/guidex.com