ChatPaper.aiChatPaper

Trasferimento Cross-Linguale Zero-Shot per la Generazione di Dati Sintetici nel Rilevamento di Errori Grammaticali

Zero-shot Cross-Lingual Transfer for Synthetic Data Generation in Grammatical Error Detection

July 16, 2024
Autori: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson
cs.AI

Abstract

I metodi di Rilevamento degli Errori Grammaticali (GED) si basano fortemente su corpora di errori annotati manualmente. Tuttavia, queste annotazioni non sono disponibili in molte lingue a bassa risorsa. In questo articolo, esploriamo il GED in questo contesto. Sfruttando le capacità di trasferimento cross-linguale zero-shot dei modelli linguistici pre-addestrati multilingue, addestriamo un modello utilizzando dati provenienti da un insieme diversificato di lingue per generare errori sintetici in altre lingue. Questi corpora di errori sintetici vengono poi utilizzati per addestrare un modello GED. Nello specifico, proponiamo una pipeline di fine-tuning in due fasi in cui il modello GET viene prima sottoposto a fine-tuning su dati sintetici multilingue provenienti dalle lingue target, seguito da un fine-tuning su corpora GED annotati manualmente provenienti dalle lingue sorgente. Questo approccio supera i metodi GED attuali all'avanguardia che non richiedono annotazioni. Analizziamo inoltre gli errori prodotti dal nostro metodo e da altri forti baseline, riscontrando che il nostro approccio genera errori più diversificati e più simili a quelli umani.
English
Grammatical Error Detection (GED) methods rely heavily on human annotated error corpora. However, these annotations are unavailable in many low-resource languages. In this paper, we investigate GED in this context. Leveraging the zero-shot cross-lingual transfer capabilities of multilingual pre-trained language models, we train a model using data from a diverse set of languages to generate synthetic errors in other languages. These synthetic error corpora are then used to train a GED model. Specifically we propose a two-stage fine-tuning pipeline where the GED model is first fine-tuned on multilingual synthetic data from target languages followed by fine-tuning on human-annotated GED corpora from source languages. This approach outperforms current state-of-the-art annotation-free GED methods. We also analyse the errors produced by our method and other strong baselines, finding that our approach produces errors that are more diverse and more similar to human errors.
PDF24November 28, 2024