Bessere Ausrichtung mit Anweisung Hin- und Rückübersetzung
Better Alignment with Instruction Back-and-Forth Translation
August 8, 2024
Autoren: Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li
cs.AI
Zusammenfassung
Wir schlagen eine neue Methode vor, die sogenannte Anweisungs-Rückübersetzung, um hochwertige synthetische Daten zu erstellen, die auf Weltwissen basieren, um große Sprachmodelle (LLMs) auszurichten. Ausgehend von Dokumenten aus einem Webkorpus generieren und kuratieren wir synthetische Anweisungen unter Verwendung des Rückübersetzungsansatzes, der von Li et al. (2023a) vorgeschlagen wurde, und überarbeiten die Antworten, um ihre Qualität weiter zu verbessern, basierend auf den ursprünglichen Dokumenten. Feinabstimmung mit den resultierenden (rückübersetzten Anweisungen, überarbeiteten Antworten)-Paaren führt zu höheren Gewinnraten bei AlpacaEval als bei der Verwendung anderer gängiger Anweisungsdatensätze wie Humpback, ShareGPT, Open Orca, Alpaca-GPT4 und Self-instruct. Wir zeigen auch, dass das Überarbeiten der Antworten mit einem LLM eine bessere Leistung erbringt als die direkte Destillation, und die beiden generierten Textverteilungen weisen signifikante Unterschiede im Einbettungsraum auf. Eine weitere Analyse zeigt, dass unsere rückübersetzten Anweisungen von höherer Qualität sind als andere Quellen synthetischer Anweisungen, während unsere Antworten vielfältiger und komplexer sind als die durch Destillation erhaltenen. Insgesamt stellen wir fest, dass die Anweisungs-Rückübersetzung das Beste aus beiden Welten kombiniert - sie nutzt die Vielfalt und Menge an Informationen, die im Web zu finden sind, und gewährleistet gleichzeitig die Qualität der Antworten, die für eine effektive Ausrichtung erforderlich ist.
English
We propose a new method, instruction back-and-forth translation, to construct
high-quality synthetic data grounded in world knowledge for aligning large
language models (LLMs). Given documents from a web corpus, we generate and
curate synthetic instructions using the backtranslation approach proposed by Li
et al.(2023a), and rewrite the responses to improve their quality further based
on the initial documents. Fine-tuning with the resulting (backtranslated
instruction, rewritten response) pairs yields higher win rates on AlpacaEval
than using other common instruction datasets such as Humpback, ShareGPT, Open
Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the
responses with an LLM outperforms direct distillation, and the two generated
text distributions exhibit significant distinction in embedding space. Further
analysis shows that our backtranslated instructions are of higher quality than
other sources of synthetic instructions, while our responses are more diverse
and complex than those obtained from distillation. Overall we find that
instruction back-and-forth translation combines the best of both worlds --
making use of the information diversity and quantity found on the web, while
ensuring the quality of the responses which is necessary for effective
alignment.Summary
AI-Generated Summary