Trasferimento Cross-Linguale Zero-Shot per la Generazione di Dati Sintetici nel Rilevamento di Errori Grammaticali
Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection
July 16, 2024
Autori: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson
cs.AI
Abstract
I metodi di Rilevamento degli Errori Grammaticali (GED) si basano fortemente su corpora di errori annotati manualmente. Tuttavia, queste annotazioni non sono disponibili in molte lingue a bassa risorsa. In questo articolo, esploriamo il GED in questo contesto. Sfruttando le capacità di trasferimento cross-linguale zero-shot dei modelli linguistici pre-addestrati multilingue, addestriamo un modello utilizzando dati provenienti da un insieme diversificato di lingue per generare errori sintetici in altre lingue. Questi corpora di errori sintetici vengono poi utilizzati per addestrare un modello GED. Nello specifico, proponiamo una pipeline di fine-tuning in due fasi in cui il modello GET viene prima sottoposto a fine-tuning su dati sintetici multilingue provenienti dalle lingue target, seguito da un fine-tuning su corpora GED annotati manualmente provenienti dalle lingue sorgente. Questo approccio supera i metodi GED attuali all'avanguardia che non richiedono annotazioni. Analizziamo inoltre gli errori prodotti dal nostro metodo e da altri forti baseline, riscontrando che il nostro approccio genera errori più diversificati e più simili a quelli umani.
English
Grammatical Error Detection (GED) methods rely heavily on human annotated
error corpora. However, these annotations are unavailable in many low-resource
languages. In this paper, we investigate GED in this context. Leveraging the
zero-shot cross-lingual transfer capabilities of multilingual pre-trained
language models, we train a model using data from a diverse set of languages to
generate synthetic errors in other languages. These synthetic error corpora are
then used to train a GED model. Specifically we propose a two-stage fine-tuning
pipeline where the GED model is first fine-tuned on multilingual synthetic data
from target languages followed by fine-tuning on human-annotated GED corpora
from source languages. This approach outperforms current state-of-the-art
annotation-free GED methods. We also analyse the errors produced by our method
and other strong baselines, finding that our approach produces errors that are
more diverse and more similar to human errors.