GuideX: Генерация синтетических данных с управлением для извлечения информации в условиях отсутствия обучающих примеров
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
May 31, 2025
Авторы: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI
Аннотация
Системы извлечения информации (Information Extraction, IE) традиционно являются предметно-ориентированными, что требует дорогостоящей адаптации, включающей разработку экспертных схем, аннотирование данных и обучение моделей. Хотя крупные языковые модели (Large Language Models) демонстрируют потенциал в задачах IE с нулевым обучением (zero-shot), их производительность значительно снижается в новых предметных областях, где определения меток отличаются. В данной статье представлен метод GUIDEX, который автоматически определяет предметно-ориентированные схемы, выводит руководящие принципы и генерирует синтетически размеченные примеры, что позволяет улучшить обобщение за пределами исходной области. Тонкая настройка модели Llama 3.1 с использованием GUIDEX устанавливает новый рекорд производительности на семи бенчмарках распознавания именованных сущностей (Named Entity Recognition) с нулевым обучением. Модели, обученные с помощью GUIDEX, показывают улучшение до 7 баллов F1 по сравнению с предыдущими методами без использования размеченных человеком данных и почти на 2 балла F1 выше при их совместном использовании. Модели, обученные на GUIDEX, демонстрируют улучшенное понимание сложных предметно-ориентированных схем аннотирования. Код, модели и синтетические наборы данных доступны по адресу neilus03.github.io/guidex.com.
English
Information Extraction (IE) systems are traditionally domain-specific,
requiring costly adaptation that involves expert schema design, data
annotation, and model training. While Large Language Models have shown promise
in zero-shot IE, performance degrades significantly in unseen domains where
label definitions differ. This paper introduces GUIDEX, a novel method that
automatically defines domain-specific schemas, infers guidelines, and generates
synthetically labeled instances, allowing for better out-of-domain
generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art
across seven zeroshot Named Entity Recognition benchmarks. Models trained with
GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data,
and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX
demonstrate enhanced comprehension of complex, domain-specific annotation
schemas. Code, models, and synthetic datasets are available at
neilus03.github.io/guidex.com