Verso la Comprensione della Sincofanzia nei Modelli Linguistici

Abstract

L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una tecnica popolare per addestrare assistenti AI di alta qualità. Tuttavia, l'RLHF può anche incoraggiare risposte del modello che si allineano alle convinzioni dell'utente piuttosto che a risposte veritiere, un comportamento noto come "sincofantia". Investigiamo la prevalenza della sincofantia nei modelli addestrati con RLHF e se i giudizi di preferenza umana ne siano responsabili. In primo luogo, dimostriamo che cinque assistenti AI all'avanguardia mostrano costantemente comportamenti sincofantici in quattro diverse attività di generazione di testo libero. Per capire se le preferenze umane guidino questo comportamento ampiamente osservato nei modelli RLHF, analizziamo i dati esistenti sulle preferenze umane. Scopriamo che quando una risposta corrisponde alle opinioni di un utente, è più probabile che venga preferita. Inoltre, sia gli esseri umani che i modelli di preferenza (PM) preferiscono risposte sincofantiche scritte in modo convincente rispetto a quelle corrette in una frazione trascurabile dei casi. Ottimizzare le uscite del modello rispetto ai PM talvolta sacrifica anche la veridicità in favore della sincofantia. Nel complesso, i nostri risultati indicano che la sincofantia è un comportamento generale dei modelli RLHF, probabilmente guidato in parte dai giudizi di preferenza umana che favoriscono risposte sincofantiche.

English

Reinforcement learning from human feedback (RLHF) is a popular technique for training high-quality AI assistants. However, RLHF may also encourage model responses that match user beliefs over truthful responses, a behavior known as sycophancy. We investigate the prevalence of sycophancy in RLHF-trained models and whether human preference judgements are responsible. We first demonstrate that five state-of-the-art AI assistants consistently exhibit sycophantic behavior across four varied free-form text-generation tasks. To understand if human preferences drive this broadly observed behavior of RLHF models, we analyze existing human preference data. We find that when a response matches a user's views, it is more likely to be preferred. Moreover, both humans and preference models (PMs) prefer convincingly-written sycophantic responses over correct ones a negligible fraction of the time. Optimizing model outputs against PMs also sometimes sacrifices truthfulness in favor of sycophancy. Overall, our results indicate that sycophancy is a general behavior of RLHF models, likely driven in part by human preference judgements favoring sycophantic responses.

Verso la Comprensione della Sincofanzia nei Modelli Linguistici

Towards Understanding Sycophancy in Language Models

Abstract

Support