GuideX: 제로샷 정보 추출을 위한 가이드형 합성 데이터 생성
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction
May 31, 2025
저자: Neil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre
cs.AI
초록
정보 추출(Information Extraction, IE) 시스템은 전통적으로 특정 도메인에 한정되어 있어, 전문가 스키마 설계, 데이터 주석 작업, 모델 학습 등 비용이 많이 드는 적응 과정이 필요했습니다. 대형 언어 모델(Large Language Models)이 제로샷 IE에서 유망한 성능을 보여주고 있지만, 라벨 정의가 다른 새로운 도메인에서는 성능이 크게 저하됩니다. 본 논문은 GUIDEX라는 새로운 방법을 소개하며, 이는 도메인별 스키마를 자동으로 정의하고, 가이드라인을 추론하며, 합성적으로 라벨링된 인스턴스를 생성함으로써 도메인 외 일반화를 개선합니다. Llama 3.1을 GUIDEX로 미세 조정한 결과, 7개의 제로샷 개체명 인식(Named Entity Recognition) 벤치마크에서 새로운 최첨단 성능을 달성했습니다. GUIDEX로 학습된 모델은 이전 방법 대비 인간이 라벨링한 데이터 없이도 최대 7 F1 점수를 향상시켰으며, 이를 결합했을 때는 거의 2 F1 점수 더 높은 성능을 보였습니다. GUIDEX로 학습된 모델은 복잡하고 도메인 특화된 주석 스키마에 대한 이해도가 향상되었음을 보여줍니다. 코드, 모델 및 합성 데이터셋은 neilus03.github.io/guidex.com에서 확인할 수 있습니다.
English
Information Extraction (IE) systems are traditionally domain-specific,
requiring costly adaptation that involves expert schema design, data
annotation, and model training. While Large Language Models have shown promise
in zero-shot IE, performance degrades significantly in unseen domains where
label definitions differ. This paper introduces GUIDEX, a novel method that
automatically defines domain-specific schemas, infers guidelines, and generates
synthetically labeled instances, allowing for better out-of-domain
generalization. Fine-tuning Llama 3.1 with GUIDEX sets a new state-of-the-art
across seven zeroshot Named Entity Recognition benchmarks. Models trained with
GUIDEX gain up to 7 F1 points over previous methods without humanlabeled data,
and nearly 2 F1 points higher when combined with it. Models trained on GUIDEX
demonstrate enhanced comprehension of complex, domain-specific annotation
schemas. Code, models, and synthetic datasets are available at
neilus03.github.io/guidex.com