Betere Afstemming met Instructie Heen-en-Weer Vertaling
Better Alignment with Instruction Back-and-Forth Translation
August 8, 2024
Auteurs: Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li
cs.AI
Samenvatting
Wij stellen een nieuwe methode voor, genaamd instructie heen-en-weer vertaling, om hoogwaardige synthetische data te construeren die verankerd is in wereldkennis voor het afstemmen van grote taalmodellen (LLMs). Gegeven documenten uit een webcorpus, genereren en cureren we synthetische instructies met behulp van de backtranslation-benadering voorgesteld door Li et al. (2023a), en herschrijven we de antwoorden om hun kwaliteit verder te verbeteren op basis van de initiële documenten. Fine-tuning met de resulterende (backvertaalde instructie, herschreven antwoord) paren resulteert in hogere winpercentages op AlpacaEval dan het gebruik van andere veelvoorkomende instructiedatasets zoals Humpback, ShareGPT, Open Orca, Alpaca-GPT4 en Self-instruct. We tonen ook aan dat het herschrijven van de antwoorden met een LLM beter presteert dan directe distillatie, en dat de twee gegenereerde tekstdistributies een significant onderscheid vertonen in de embeddingruimte. Verdere analyse toont aan dat onze backvertaalde instructies van hogere kwaliteit zijn dan andere bronnen van synthetische instructies, terwijl onze antwoorden diverser en complexer zijn dan die verkregen uit distillatie. Over het geheel genomen vinden we dat instructie heen-en-weer vertaling het beste van beide werelden combineert – gebruikmakend van de informatie diversiteit en hoeveelheid die op het web te vinden is, terwijl de kwaliteit van de antwoorden wordt gewaarborgd die noodzakelijk is voor effectieve afstemming.
English
We propose a new method, instruction back-and-forth translation, to construct
high-quality synthetic data grounded in world knowledge for aligning large
language models (LLMs). Given documents from a web corpus, we generate and
curate synthetic instructions using the backtranslation approach proposed by Li
et al.(2023a), and rewrite the responses to improve their quality further based
on the initial documents. Fine-tuning with the resulting (backtranslated
instruction, rewritten response) pairs yields higher win rates on AlpacaEval
than using other common instruction datasets such as Humpback, ShareGPT, Open
Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the
responses with an LLM outperforms direct distillation, and the two generated
text distributions exhibit significant distinction in embedding space. Further
analysis shows that our backtranslated instructions are of higher quality than
other sources of synthetic instructions, while our responses are more diverse
and complex than those obtained from distillation. Overall we find that
instruction back-and-forth translation combines the best of both worlds --
making use of the information diversity and quantity found on the web, while
ensuring the quality of the responses which is necessary for effective
alignment.