지시에 대한 더 나은 정렬을 위한 번역 전후 방향
Better Alignment with Instruction Back-and-Forth Translation
August 8, 2024
저자: Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li
cs.AI
초록
우리는 대규모 언어 모델 (LLM)을 조정하기 위해 세계 지식에 근거한 고품질 합성 데이터를 구축하는 새로운 방법인 '지시 양방향 번역' 방법을 제안합니다. 웹 말뭉치에서 문서를 제공받아 Li 등(2023a)이 제안한 역번역 접근 방식을 사용하여 합성 지시사항을 생성하고 정비하며, 초기 문서를 기반으로 응답을 재작성하여 품질을 더욱 향상시킵니다. 결과적으로 (역번역된 지시사항, 재작성된 응답) 쌍으로 세밀 조정을 수행하면 Humpback, ShareGPT, Open Orca, Alpaca-GPT4 및 Self-instruct와 같은 일반적인 지시 데이터셋보다 AlpacaEval에서 더 높은 승률을 얻을 수 있습니다. 또한 LLM을 사용하여 응답을 재작성하는 것이 직접 증류보다 우수함을 입증하며, 두 생성된 텍스트 분포가 임베딩 공간에서 상당한 차이를 나타냅니다. 추가 분석 결과, 우리의 역번역된 지시사항이 다른 합성 지시사항 소스보다 품질이 높으며, 우리의 응답은 증류로 얻은 것보다 다양하고 복잡합니다. 전반적으로, 지시 양방향 번역은 웹에서 발견되는 정보 다양성과 양을 활용하면서 효과적인 조정을 위해 필요한 응답의 품질을 보장하는 데 필요한 최상의 방법을 결합한다는 것을 발견했습니다.
English
We propose a new method, instruction back-and-forth translation, to construct
high-quality synthetic data grounded in world knowledge for aligning large
language models (LLMs). Given documents from a web corpus, we generate and
curate synthetic instructions using the backtranslation approach proposed by Li
et al.(2023a), and rewrite the responses to improve their quality further based
on the initial documents. Fine-tuning with the resulting (backtranslated
instruction, rewritten response) pairs yields higher win rates on AlpacaEval
than using other common instruction datasets such as Humpback, ShareGPT, Open
Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the
responses with an LLM outperforms direct distillation, and the two generated
text distributions exhibit significant distinction in embedding space. Further
analysis shows that our backtranslated instructions are of higher quality than
other sources of synthetic instructions, while our responses are more diverse
and complex than those obtained from distillation. Overall we find that
instruction back-and-forth translation combines the best of both worlds --
making use of the information diversity and quantity found on the web, while
ensuring the quality of the responses which is necessary for effective
alignment.Summary
AI-Generated Summary