Auto-Allineamento con Backtraduzione di Istruzioni

Abstract

Presentiamo un metodo scalabile per costruire un modello linguistico di alta qualità in grado di seguire istruzioni, etichettando automaticamente testi scritti da esseri umani con le corrispondenti istruzioni. Il nostro approccio, denominato backtraduzione di istruzioni, parte da un modello linguistico affinato su una piccola quantità di dati iniziali e un dato corpus web. Il modello iniziale viene utilizzato per costruire esempi di addestramento generando prompt di istruzioni per documenti web (auto-aumento), e poi selezionando esempi di alta qualità tra questi candidati (auto-curazione). Questi dati vengono quindi utilizzati per affinare un modello più potente. L'affinamento di LLaMa su due iterazioni del nostro approccio produce un modello che supera tutti gli altri modelli basati su LLaMa nella classifica Alpaca senza fare affidamento su dati di distillazione, dimostrando un allineamento automatico altamente efficace.

English

We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.

Auto-Allineamento con Backtraduzione di Istruzioni

Self-Alignment with Instruction Backtranslation

Abstract

Support