ChatPaper.aiChatPaper

La supervisione cross-linguale migliora il pre-addestramento dei modelli linguistici su larga scala

Cross-Lingual Supervision improves Large Language Models Pre-training

May 19, 2023
Autori: Andrea Schioppa, Xavier Garcia, Orhan Firat
cs.AI

Abstract

I recenti rapidi progressi nel pre-addestramento di Modelli Linguistici di Grande Scala si sono basati sull'uso di obiettivi di modellazione linguistica auto-supervisionati come la previsione del token successivo o la corruzione di segmenti. D'altra parte, i Sistemi di Traduzione Automatica sono principalmente addestrati utilizzando supervisione cross-linguale che richiede dati allineati tra le lingue sorgente e target. Dimostriamo che il pre-addestramento di Modelli Linguistici di Grande Scala su una miscela di un obiettivo di modellazione linguistica auto-supervisionato e l'obiettivo supervisionato di traduzione automatica, includendo quindi dati paralleli cross-linguali durante il pre-addestramento, produce modelli con migliori capacità di apprendimento in contesto. Poiché il pre-addestramento è un processo molto dispendioso in termini di risorse e una ricerca a griglia sul miglior rapporto di miscelazione tra i due obiettivi è proibitivamente costosa, proponiamo una strategia semplice ma efficace per apprenderlo durante il pre-addestramento.
English
The recent rapid progress in pre-training Large Language Models has relied on using self-supervised language modeling objectives like next token prediction or span corruption. On the other hand, Machine Translation Systems are mostly trained using cross-lingual supervision that requires aligned data between source and target languages. We demonstrate that pre-training Large Language Models on a mixture of a self-supervised Language Modeling objective and the supervised Machine Translation objective, therefore including cross-lingual parallel data during pre-training, yields models with better in-context learning abilities. As pre-training is a very resource-intensive process and a grid search on the best mixing ratio between the two objectives is prohibitively expensive, we propose a simple yet effective strategy to learn it during pre-training.
PDF20February 8, 2026