Die Auswahl von Beispielen im Kontext mittels Ähnlichkeitssuche verbessert die maschinelle Übersetzung mit geringen Ressourcen.
In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation
August 1, 2024
Autoren: Armel Zebaze, Benoît Sagot, Rachel Bawden
cs.AI
Zusammenfassung
Die Fähigkeit generativer großer Sprachmodelle (LLMs), kontextbezogenes Lernen durchzuführen, hat zu einer Vielzahl von Forschungsarbeiten geführt, die sich damit befassen, wie Modelle am besten für verschiedene Aufgaben des natürlichen Sprachverarbeitung angeregt werden können. In diesem Paper konzentrieren wir uns auf maschinelle Übersetzung (MT), eine Aufgabe, bei der sich gezeigt hat, dass kontextbezogene Übersetzungsbeispiele von Vorteil sind. Es wurden jedoch keine systematischen Studien veröffentlicht, die zeigen, wie die besten Beispiele ausgewählt werden können, und gemischte Ergebnisse wurden hinsichtlich der Nützlichkeit einer Auswahl basierend auf Ähnlichkeit im Vergleich zur zufälligen Auswahl berichtet. Wir präsentieren eine Studie, die mehrere LLMs und verschiedene Strategien zur Wiederherstellung von Beispielen im Kontext vergleicht, wobei mehrsprachige Satz-Einbettungen verwendet werden. Wir behandeln mehrere Sprachrichtungen, die unterschiedliche Sprachressourcen darstellen (Englisch in Französisch, Deutsch, Suaheli und Wolof). Im Gegensatz zu zuvor veröffentlichten Ergebnissen stellen wir fest, dass die Ähnlichkeit von Satz-Einbettungen die MT verbessern kann, insbesondere für Sprachrichtungen mit geringen Ressourcen, und diskutieren das Gleichgewicht zwischen Vielfalt und Qualität des Auswahl-Pools. Wir heben auch potenzielle Probleme bei der Bewertung von LLM-basierter MT hervor und schlagen ein angemesseneres Bewertungsprotokoll vor, das die COMET-Metrik an die Bewertung von LLMs anpasst. Der Code und die Ergebnisse sind frei verfügbar unter https://github.com/ArmelRandy/ICL-MT.
English
The ability of generative large language models (LLMs) to perform in-context
learning has given rise to a large body of research into how best to prompt
models for various natural language processing tasks. In this paper, we focus
on machine translation (MT), a task that has been shown to benefit from
in-context translation examples. However no systematic studies have been
published on how best to select examples, and mixed results have been reported
on the usefulness of similarity-based selection over random selection. We
provide a study covering multiple LLMs and multiple in-context example
retrieval strategies, comparing multilingual sentence embeddings. We cover
several language directions, representing different levels of language
resourcedness (English into French, German, Swahili and Wolof). Contrarily to
previously published results, we find that sentence embedding similarity can
improve MT, especially for low-resource language directions, and discuss the
balance between selection pool diversity and quality. We also highlight
potential problems with the evaluation of LLM-based MT and suggest a more
appropriate evaluation protocol, adapting the COMET metric to the evaluation of
LLMs. Code and outputs are freely available at
https://github.com/ArmelRandy/ICL-MT.Summary
AI-Generated Summary