ChatPaper.aiChatPaper

Zero-shot Cross-Linguale Transfer voor Synthetische Datageneratie in Grammaticale Foutdetectie

Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection

July 16, 2024
Auteurs: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson
cs.AI

Samenvatting

Methoden voor Grammatical Error Detection (GED) zijn sterk afhankelijk van door mensen geannoteerde foutencorpora. Deze annotaties zijn echter niet beschikbaar in veel talen met beperkte bronnen. In dit artikel onderzoeken we GED in deze context. Door gebruik te maken van de zero-shot cross-linguale transfermogelijkheden van meertalige vooraf getrainde taalmodelen, trainen we een model met gegevens uit een diverse set van talen om synthetische fouten in andere talen te genereren. Deze synthetische foutencorpora worden vervolgens gebruikt om een GED-model te trainen. Specifiek stellen we een tweestaps fine-tuningpijplijn voor, waarbij het GED-model eerst wordt gefinetuned op meertalige synthetische gegevens uit doeltalen, gevolgd door finetuning op door mensen geannoteerde GED-corpora uit brontalen. Deze aanpak overtreft de huidige state-of-the-art annotatievrije GED-methoden. We analyseren ook de fouten die door onze methode en andere sterke baselines worden geproduceerd, en constateren dat onze aanpak fouten produceert die diverser en meer vergelijkbaar zijn met menselijke fouten.
English
Grammatical Error Detection (GED) methods rely heavily on human annotated error corpora. However, these annotations are unavailable in many low-resource languages. In this paper, we investigate GED in this context. Leveraging the zero-shot cross-lingual transfer capabilities of multilingual pre-trained language models, we train a model using data from a diverse set of languages to generate synthetic errors in other languages. These synthetic error corpora are then used to train a GED model. Specifically we propose a two-stage fine-tuning pipeline where the GED model is first fine-tuned on multilingual synthetic data from target languages followed by fine-tuning on human-annotated GED corpora from source languages. This approach outperforms current state-of-the-art annotation-free GED methods. We also analyse the errors produced by our method and other strong baselines, finding that our approach produces errors that are more diverse and more similar to human errors.
PDF24February 8, 2026