ChatPaper.aiChatPaper

Abstimmung von LLMs mit kontrastiven Ausrichtungsanweisungen für maschinelle Übersetzung in unbekannten, ressourcenarmen Sprachen

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages

January 11, 2024
Autoren: Zhuoyuan Mao, Yen Yu
cs.AI

Zusammenfassung

Dieser Artikel stellt kontrastive Ausrichtungsanweisungen (AlignInstruct) vor, um zwei Herausforderungen in der maschinellen Übersetzung (MT) mit großen Sprachmodellen (LLMs) zu adressieren. Die erste Herausforderung ist die Erweiterung der unterstützten Sprachen auf bisher unbekannte. Die zweite betrifft den Mangel an Daten in ressourcenarmen Sprachen. Die Feinabstimmung von Modellen durch MT-Anweisungen (MTInstruct) ist ein direkter Ansatz für die erste Herausforderung. Allerdings wird MTInstruct durch schwache cross-linguale Signale, die in der zweiten Herausforderung inhärent sind, eingeschränkt. AlignInstruct betont die cross-linguale Überwachung durch einen cross-lingualen Diskriminator, der mithilfe statistischer Wortausrichtungen erstellt wird. Unsere Ergebnisse, basierend auf der Feinabstimmung der BLOOMZ-Modelle (1b1, 3b und 7b1) in bis zu 24 unbekannten Sprachen, zeigten, dass: (1) LLMs unbekannte Sprachen effektiv mit MTInstruct übersetzen können; (2) AlignInstruct zu konsistenten Verbesserungen der Übersetzungsqualität in 48 Übersetzungsrichtungen, die Englisch beinhalten, führte; (3) Diskriminator-basierte Anweisungen ihre generativen Gegenstücke als cross-linguale Anweisungen übertrafen; (4) AlignInstruct die Leistung in 30 Zero-Shot-Richtungen verbesserte.
English
This article introduces contrastive alignment instructions (AlignInstruct) to address two challenges in machine translation (MT) on large language models (LLMs). One is the expansion of supported languages to previously unseen ones. The second relates to the lack of data in low-resource languages. Model fine-tuning through MT instructions (MTInstruct) is a straightforward approach to the first challenge. However, MTInstruct is limited by weak cross-lingual signals inherent in the second challenge. AlignInstruct emphasizes cross-lingual supervision via a cross-lingual discriminator built using statistical word alignments. Our results based on fine-tuning the BLOOMZ models (1b1, 3b, and 7b1) in up to 24 unseen languages showed that: (1) LLMs can effectively translate unseen languages using MTInstruct; (2) AlignInstruct led to consistent improvements in translation quality across 48 translation directions involving English; (3) Discriminator-based instructions outperformed their generative counterparts as cross-lingual instructions; (4) AlignInstruct improved performance in 30 zero-shot directions.
PDF80December 15, 2024