Zero-shot Cross-Linguale Transfer voor Synthetische Datageneratie in Grammaticale Foutdetectie
Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection
July 16, 2024
Auteurs: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson
cs.AI
Samenvatting
Methoden voor Grammatical Error Detection (GED) zijn sterk afhankelijk van door mensen geannoteerde foutencorpora. Deze annotaties zijn echter niet beschikbaar in veel talen met beperkte bronnen. In dit artikel onderzoeken we GED in deze context. Door gebruik te maken van de zero-shot cross-linguale transfermogelijkheden van meertalige vooraf getrainde taalmodelen, trainen we een model met gegevens uit een diverse set van talen om synthetische fouten in andere talen te genereren. Deze synthetische foutencorpora worden vervolgens gebruikt om een GED-model te trainen. Specifiek stellen we een tweestaps fine-tuningpijplijn voor, waarbij het GED-model eerst wordt gefinetuned op meertalige synthetische gegevens uit doeltalen, gevolgd door finetuning op door mensen geannoteerde GED-corpora uit brontalen. Deze aanpak overtreft de huidige state-of-the-art annotatievrije GED-methoden. We analyseren ook de fouten die door onze methode en andere sterke baselines worden geproduceerd, en constateren dat onze aanpak fouten produceert die diverser en meer vergelijkbaar zijn met menselijke fouten.
English
Grammatical Error Detection (GED) methods rely heavily on human annotated
error corpora. However, these annotations are unavailable in many low-resource
languages. In this paper, we investigate GED in this context. Leveraging the
zero-shot cross-lingual transfer capabilities of multilingual pre-trained
language models, we train a model using data from a diverse set of languages to
generate synthetic errors in other languages. These synthetic error corpora are
then used to train a GED model. Specifically we propose a two-stage fine-tuning
pipeline where the GED model is first fine-tuned on multilingual synthetic data
from target languages followed by fine-tuning on human-annotated GED corpora
from source languages. This approach outperforms current state-of-the-art
annotation-free GED methods. We also analyse the errors produced by our method
and other strong baselines, finding that our approach produces errors that are
more diverse and more similar to human errors.