Betere Afstemming met Instructie Heen-en-Weer Vertaling

Samenvatting

Wij stellen een nieuwe methode voor, genaamd instructie heen-en-weer vertaling, om hoogwaardige synthetische data te construeren die verankerd is in wereldkennis voor het afstemmen van grote taalmodellen (LLMs). Gegeven documenten uit een webcorpus, genereren en cureren we synthetische instructies met behulp van de backtranslation-benadering voorgesteld door Li et al. (2023a), en herschrijven we de antwoorden om hun kwaliteit verder te verbeteren op basis van de initiële documenten. Fine-tuning met de resulterende (backvertaalde instructie, herschreven antwoord) paren resulteert in hogere winpercentages op AlpacaEval dan het gebruik van andere veelvoorkomende instructiedatasets zoals Humpback, ShareGPT, Open Orca, Alpaca-GPT4 en Self-instruct. We tonen ook aan dat het herschrijven van de antwoorden met een LLM beter presteert dan directe distillatie, en dat de twee gegenereerde tekstdistributies een significant onderscheid vertonen in de embeddingruimte. Verdere analyse toont aan dat onze backvertaalde instructies van hogere kwaliteit zijn dan andere bronnen van synthetische instructies, terwijl onze antwoorden diverser en complexer zijn dan die verkregen uit distillatie. Over het geheel genomen vinden we dat instructie heen-en-weer vertaling het beste van beide werelden combineert – gebruikmakend van de informatie diversiteit en hoeveelheid die op het web te vinden is, terwijl de kwaliteit van de antwoorden wordt gewaarborgd die noodzakelijk is voor effectieve afstemming.

English

We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment.

Betere Afstemming met Instructie Heen-en-Weer Vertaling

Better Alignment with Instruction Back-and-Forth Translation

Samenvatting

Support