ChatPaper.aiChatPaper

GuideX : Génération guidée de données synthétiques pour l'extraction d'information en contexte zero-shot

GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31, 2025
Auteurs: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI

Résumé

Les systèmes d'Extraction d'Information (IE) sont traditionnellement spécifiques à un domaine, nécessitant une adaptation coûteuse qui implique la conception de schémas par des experts, l'annotation de données et l'entraînement de modèles. Bien que les modèles de langage de grande taille aient montré des résultats prometteurs en IE zero-shot, leurs performances se dégradent significativement dans des domaines non vus où les définitions des étiquettes diffèrent. Cet article présente GUIDEX, une méthode novatrice qui définit automatiquement des schémas spécifiques à un domaine, infère des directives et génère des instances synthétiquement étiquetées, permettant une meilleure généralisation hors domaine. Le fine-tuning de Llama 3.1 avec GUIDEX établit un nouvel état de l'art sur sept benchmarks de Reconnaissance d'Entités Nommées (NER) zero-shot. Les modèles entraînés avec GUIDEX gagnent jusqu'à 7 points F1 par rapport aux méthodes précédentes sans données annotées manuellement, et près de 2 points F1 supplémentaires lorsqu'ils sont combinés avec ces données. Les modèles entraînés sur GUIDEX démontrent une meilleure compréhension des schémas d'annotation complexes et spécifiques à un domaine. Le code, les modèles et les ensembles de données synthétiques sont disponibles sur neilus03.github.io/guidex.com.
English
Information Extraction (IE) systems are traditionally domain-specific, requiring costly adaptation that involves expert schema design, data annotation, and model training. While Large Language Models have shown promise in zero-shot IE, performance degrades significantly in unseen domains where label definitions differ. This paper introduces GUIDEX, a novel method that automatically defines domain-specific schemas, infers guidelines, and generates synthetically labeled instances, allowing for better out-of-domain generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art across seven zeroshot Named Entity Recognition benchmarks. Models trained with GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data, and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX demonstrate enhanced comprehension of complex, domain-specific annotation schemas. Code, models, and synthetic datasets are available at neilus03.github.io/guidex.com
PDF32June 9, 2025