ChatPaper.aiChatPaper

Autoalineación con Retro-traducción de Instrucciones

Self-Alignment with Instruction Backtranslation

August 11, 2023
Autores: Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, Mike Lewis
cs.AI

Resumen

Presentamos un método escalable para construir un modelo de lenguaje de alta calidad que siga instrucciones, mediante el etiquetado automático de textos escritos por humanos con las instrucciones correspondientes. Nuestro enfoque, denominado retro-traducción de instrucciones, comienza con un modelo de lenguaje ajustado en una pequeña cantidad de datos iniciales y un corpus web dado. El modelo inicial se utiliza para construir ejemplos de entrenamiento generando indicaciones de instrucciones para documentos web (auto-aumento), y luego seleccionando ejemplos de alta calidad entre estos candidatos (auto-curación). Estos datos se utilizan luego para ajustar un modelo más potente. Al ajustar LLaMa en dos iteraciones de nuestro enfoque, se obtiene un modelo que supera a todos los demás modelos basados en LLaMa en el ranking de Alpaca sin depender de datos de destilación, demostrando una auto-alineación altamente efectiva.
English
We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.
PDF423December 15, 2024