제로샷 교차 언어 전이를 활용한 문법 오류 탐지를 위한 합성 데이터 생성
Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection
July 16, 2024
저자: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson
cs.AI
초록
문법 오류 탐지(Grammatical Error Detection, GED) 방법은 주로 인간이 주석을 단 오류 코퍼스에 크게 의존합니다. 그러나 이러한 주석은 많은 저자원 언어에서는 사용할 수 없습니다. 본 논문에서는 이러한 상황에서의 GED를 연구합니다. 다국어 사전 학습 언어 모델의 제로샷 교차 언어 전이 능력을 활용하여, 다양한 언어의 데이터를 사용해 모델을 훈련시켜 다른 언어에서 합성 오류를 생성합니다. 이렇게 생성된 합성 오류 코퍼스는 GED 모델을 훈련하는 데 사용됩니다. 구체적으로, 우리는 두 단계의 미세 조정 파이프라인을 제안합니다. 이 파이프라인에서는 GED 모델이 먼저 대상 언어의 다국어 합성 데이터로 미세 조정된 후, 소스 언어의 인간 주석 GED 코퍼스로 추가 미세 조정됩니다. 이 접근 방식은 현재의 최첨단 주석 없는 GED 방법들을 능가합니다. 또한, 우리는 우리의 방법과 다른 강력한 베이스라인들이 생성한 오류를 분석하여, 우리의 접근 방식이 더 다양하고 인간의 오류와 더 유사한 오류를 생성한다는 것을 발견했습니다.
English
Grammatical Error Detection (GED) methods rely heavily on human annotated
error corpora. However, these annotations are unavailable in many low-resource
languages. In this paper, we investigate GED in this context. Leveraging the
zero-shot cross-lingual transfer capabilities of multilingual pre-trained
language models, we train a model using data from a diverse set of languages to
generate synthetic errors in other languages. These synthetic error corpora are
then used to train a GED model. Specifically we propose a two-stage fine-tuning
pipeline where the GED model is first fine-tuned on multilingual synthetic data
from target languages followed by fine-tuning on human-annotated GED corpora
from source languages. This approach outperforms current state-of-the-art
annotation-free GED methods. We also analyse the errors produced by our method
and other strong baselines, finding that our approach produces errors that are
more diverse and more similar to human errors.Summary
AI-Generated Summary