ChatPaper.aiChatPaper

GuideX: Generazione Guidata di Dati Sintetici per l'Estrazione di Informazioni in Modalità Zero-Shot

GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31, 2025
Autori: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI

Abstract

I sistemi di Information Extraction (IE) sono tradizionalmente specifici per dominio, richiedendo un adattamento costoso che include la progettazione di schemi da parte di esperti, l'annotazione dei dati e l'addestramento del modello. Sebbene i Large Language Models abbiano mostrato potenziale nell'IE zero-shot, le prestazioni si degradano significativamente in domini non visti dove le definizioni delle etichette differiscono. Questo articolo introduce GUIDEX, un metodo innovativo che definisce automaticamente schemi specifici per dominio, inferisce linee guida e genera istanze etichettate sinteticamente, consentendo una migliore generalizzazione fuori dal dominio. Il fine-tuning di Llama 3.1 con GUIDEX stabilisce un nuovo stato dell'arte su sette benchmark zero-shot di Named Entity Recognition. I modelli addestrati con GUIDEX guadagnano fino a 7 punti F1 rispetto ai metodi precedenti senza dati etichettati manualmente, e quasi 2 punti F1 in più quando combinati con essi. I modelli addestrati su GUIDEX dimostrano una migliore comprensione di schemi di annotazione complessi e specifici per dominio. Codice, modelli e dataset sintetici sono disponibili su neilus03.github.io/guidex.com.
English
Information Extraction (IE) systems are traditionally domain-specific, requiring costly adaptation that involves expert schema design, data annotation, and model training. While Large Language Models have shown promise in zero-shot IE, performance degrades significantly in unseen domains where label definitions differ. This paper introduces GUIDEX, a novel method that automatically defines domain-specific schemas, infers guidelines, and generates synthetically labeled instances, allowing for better out-of-domain generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art across seven zeroshot Named Entity Recognition benchmarks. Models trained with GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data, and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX demonstrate enhanced comprehension of complex, domain-specific annotation schemas. Code, models, and synthetic datasets are available at neilus03.github.io/guidex.com
PDF32June 9, 2025