Raisons de rejeter ? Aligner les modèles de langage avec les jugements
Reasons to Reject? Aligning Language Models with Judgments
December 22, 2023
Auteurs: Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi
cs.AI
Résumé
En tant qu'êtres humains, nous interagissons constamment avec nos pairs et recevons des retours sous forme de langage naturel. Ces retours langagiers nous permettent de réfléchir à nos actions, de maintenir un comportement approprié et de corriger nos erreurs. La question se pose naturellement : pouvons-nous utiliser ces retours langagiers pour aligner les grands modèles de langage (LLMs) ? Contrairement aux recherches précédentes qui alignent les LLMs avec des données de récompense ou de préférence, nous présentons la première exploration systématique de l'alignement à travers le prisme des retours langagiers (c'est-à-dire, les jugements). Nous commençons par une investigation approfondie des méthodes potentielles pouvant être adaptées pour aligner les LLMs avec des jugements, révélant que ces méthodes ne parviennent pas à exploiter pleinement les jugements. Pour faciliter une utilisation plus efficace des jugements, nous proposons un nouveau cadre, l'Entraînement par Contraste d'Improbabilité (Contrastive Unlikelihood Training, CUT), qui permet une détection et une correction fine des contenus inappropriés basées sur les jugements. Nos résultats d'alignement hors ligne montrent qu'avec seulement 1317 données de jugement prêtes à l'emploi, CUT (LLaMA2-13b) peut surpasser le modèle DaVinci003 de 175B et dépasser le meilleur modèle de référence de 52,34 points sur AlpacaEval. Les résultats d'alignement en ligne démontrent que CUT peut aligner les LLMs (LLaMA2-chat-13b) de manière itérative en utilisant des données de jugement spécifiques au modèle, avec une amélioration constante des performances de 81,09 à 91,36 points sur AlpacaEval. Notre analyse suggère en outre que les jugements présentent un potentiel plus grand que les récompenses pour l'alignement des LLMs et méritent des recherches futures.
English
As humans, we consistently engage in interactions with our peers and receive
feedback in the form of natural language. This language feedback allows us to
reflect on our actions, maintain appropriate behavior, and rectify our errors.
The question arises naturally: can we use language feedback to align large
language models (LLMs)? In contrast to previous research that aligns LLMs with
reward or preference data, we present the first systematic exploration of
alignment through the lens of language feedback (i.e., judgment). We commence
with an in-depth investigation of potential methods that can be adapted for
aligning LLMs with judgments, revealing that these methods are unable to fully
capitalize on the judgments. To facilitate more effective utilization of
judgments, we propose a novel framework, Contrastive Unlikelihood Training
(CUT), that allows for fine-grained inappropriate content detection and
correction based on judgments. Our offline alignment results show that, with
merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B
DaVinci003 and surpass the best baseline by 52.34 points on AlpacaEval. The
online alignment results demonstrate that CUT can align LLMs (LLaMA2-chat-13b)
in an iterative fashion using model-specific judgment data, with a steady
performance improvement from 81.09 to 91.36 points on AlpacaEval. Our analysis
further suggests that judgments exhibit greater potential than rewards for LLM
alignment and warrant future research.