GuideX: Generación Guiada de Datos Sintéticos para la Extracción de Información con Enfoque de Cero Disparos
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
May 31, 2025
Autores: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI
Resumen
Los sistemas de Extracción de Información (IE, por sus siglas en inglés) tradicionalmente son específicos de un dominio, lo que requiere una adaptación costosa que involucra el diseño de esquemas por expertos, la anotación de datos y el entrenamiento de modelos. Si bien los Modelos de Lenguaje a Gran Escala han mostrado potencial en IE con enfoque de cero disparos, su rendimiento se degrada significativamente en dominios no vistos donde las definiciones de etiquetas difieren. Este artículo presenta GUIDEX, un método novedoso que define automáticamente esquemas específicos de dominio, infiere directrices y genera instancias etiquetadas de manera sintética, permitiendo una mejor generalización fuera del dominio. El ajuste fino de Llama 3.1 con GUIDEX establece un nuevo estado del arte en siete benchmarks de Reconocimiento de Entidades Nombradas con enfoque de cero disparos. Los modelos entrenados con GUIDEX obtienen hasta 7 puntos F1 más que los métodos anteriores sin datos etiquetados por humanos, y casi 2 puntos F1 más cuando se combinan con ellos. Los modelos entrenados con GUIDEX demuestran una comprensión mejorada de esquemas de anotación complejos y específicos del dominio. El código, los modelos y los conjuntos de datos sintéticos están disponibles en neilus03.github.io/guidex.com.
English
Information Extraction (IE) systems are traditionally domain-specific,
requiring costly adaptation that involves expert schema design, data
annotation, and model training. While Large Language Models have shown promise
in zero-shot IE, performance degrades significantly in unseen domains where
label definitions differ. This paper introduces GUIDEX, a novel method that
automatically defines domain-specific schemas, infers guidelines, and generates
synthetically labeled instances, allowing for better out-of-domain
generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art
across seven zeroshot Named Entity Recognition benchmarks. Models trained with
GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data,
and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX
demonstrate enhanced comprehension of complex, domain-specific annotation
schemas. Code, models, and synthetic datasets are available at
neilus03.github.io/guidex.com