Bessere Ausrichtung mit Anweisung Hin- und Rückübersetzung

papers.abstract

Wir schlagen eine neue Methode vor, die sogenannte Anweisungs-Rückübersetzung, um hochwertige synthetische Daten zu erstellen, die auf Weltwissen basieren, um große Sprachmodelle (LLMs) auszurichten. Ausgehend von Dokumenten aus einem Webkorpus generieren und kuratieren wir synthetische Anweisungen unter Verwendung des Rückübersetzungsansatzes, der von Li et al. (2023a) vorgeschlagen wurde, und überarbeiten die Antworten, um ihre Qualität weiter zu verbessern, basierend auf den ursprünglichen Dokumenten. Feinabstimmung mit den resultierenden (rückübersetzten Anweisungen, überarbeiteten Antworten)-Paaren führt zu höheren Gewinnraten bei AlpacaEval als bei der Verwendung anderer gängiger Anweisungsdatensätze wie Humpback, ShareGPT, Open Orca, Alpaca-GPT4 und Self-instruct. Wir zeigen auch, dass das Überarbeiten der Antworten mit einem LLM eine bessere Leistung erbringt als die direkte Destillation, und die beiden generierten Textverteilungen weisen signifikante Unterschiede im Einbettungsraum auf. Eine weitere Analyse zeigt, dass unsere rückübersetzten Anweisungen von höherer Qualität sind als andere Quellen synthetischer Anweisungen, während unsere Antworten vielfältiger und komplexer sind als die durch Destillation erhaltenen. Insgesamt stellen wir fest, dass die Anweisungs-Rückübersetzung das Beste aus beiden Welten kombiniert - sie nutzt die Vielfalt und Menge an Informationen, die im Web zu finden sind, und gewährleistet gleichzeitig die Qualität der Antworten, die für eine effektive Ausrichtung erforderlich ist.

English

We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment.

Bessere Ausrichtung mit Anweisung Hin- und Rückübersetzung

Better Alignment with Instruction Back-and-Forth Translation

papers.abstract

Support