ChatPaper.aiChatPaper

GuideX: Geração Guiada de Dados Sintéticos para Extração de Informações em Cenário Zero-Shot

GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31, 2025
Autores: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI

Resumo

Os sistemas de Extração de Informação (EI) são tradicionalmente específicos de domínio, exigindo uma adaptação custosa que envolve o design de esquemas por especialistas, anotação de dados e treinamento de modelos. Embora os Modelos de Linguagem de Grande Escala tenham mostrado potencial na EI em cenário zero-shot, o desempenho degrada significativamente em domínios não vistos onde as definições de rótulos diferem. Este artigo introduz o GUIDEX, um método inovador que define automaticamente esquemas específicos de domínio, infere diretrizes e gera instâncias rotuladas sinteticamente, permitindo uma melhor generalização fora do domínio. O ajuste fino do Llama 3.1 com o GUIDEX estabelece um novo estado da arte em sete benchmarks de Reconhecimento de Entidades Nomeadas em zero-shot. Modelos treinados com o GUIDEX ganham até 7 pontos F1 em relação a métodos anteriores sem dados rotulados por humanos, e quase 2 pontos F1 a mais quando combinados com eles. Modelos treinados com o GUIDEX demonstram uma compreensão aprimorada de esquemas de anotação complexos e específicos de domínio. Código, modelos e conjuntos de dados sintéticos estão disponíveis em neilus03.github.io/guidex.com.
English
Information Extraction (IE) systems are traditionally domain-specific, requiring costly adaptation that involves expert schema design, data annotation, and model training. While Large Language Models have shown promise in zero-shot IE, performance degrades significantly in unseen domains where label definitions differ. This paper introduces GUIDEX, a novel method that automatically defines domain-specific schemas, infers guidelines, and generates synthetically labeled instances, allowing for better out-of-domain generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art across seven zeroshot Named Entity Recognition benchmarks. Models trained with GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data, and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX demonstrate enhanced comprehension of complex, domain-specific annotation schemas. Code, models, and synthetic datasets are available at neilus03.github.io/guidex.com
PDF32June 9, 2025