GenARM : Génération guidée par récompense avec modèle de récompense autorégressif pour l'alignement au moment du test

papers.abstract

Les grands modèles de langage (LLMs) présentent des capacités impressionnantes mais nécessitent un alignement soigneux avec les préférences humaines. Les méthodes traditionnelles d'entraînement finetunent les LLMs en utilisant des ensembles de données de préférences humaines, mais entraînent des coûts importants et nécessitent un entraînement répété pour gérer des préférences utilisateur diverses. Les méthodes d'alignement au moment du test abordent cette problématique en utilisant des modèles de récompense (RMs) pour guider les LLMs figés sans re-entraînement. Cependant, les approches existantes au moment du test reposent sur des RMs au niveau de la trajectoire qui sont conçus pour évaluer des réponses complètes, les rendant inadaptés à la génération de texte autorégressive qui nécessite le calcul de récompenses de jeton suivant à partir de réponses partielles. Pour résoudre cela, nous introduisons GenARM, une approche d'alignement au moment du test qui exploite le Modèle de Récompense Autorégressif - une nouvelle paramétrisation de récompense conçue pour prédire les récompenses de jeton suivant de manière efficace et efficiente pour la génération autorégressive. Théoriquement, nous démontrons que cette paramétrisation peut guider de manière prouvable les LLMs figés vers toute distribution réalisable par des RMs traditionnels dans le cadre de l'apprentissage par renforcement régularisé par KL. Les résultats expérimentaux montrent que GenARM surpasse significativement les références d'alignement au moment du test précédentes et égale les performances des méthodes d'entraînement. De plus, GenARM permet un guidage efficace de faible à fort, alignant des LLMs plus grands avec des RMs plus petits sans les coûts élevés de l'entraînement de modèles plus grands. De plus, GenARM prend en charge l'alignement multi-objectif, permettant des compromis en temps réel entre les dimensions de préférence et répondant à des préférences utilisateur diverses sans re-entraînement.

English

Large Language Models (LLMs) exhibit impressive capabilities but require careful alignment with human preferences. Traditional training-time methods finetune LLMs using human preference datasets but incur significant training costs and require repeated training to handle diverse user preferences. Test-time alignment methods address this by using reward models (RMs) to guide frozen LLMs without retraining. However, existing test-time approaches rely on trajectory-level RMs which are designed to evaluate complete responses, making them unsuitable for autoregressive text generation that requires computing next-token rewards from partial responses. To address this, we introduce GenARM, a test-time alignment approach that leverages the Autoregressive Reward Model--a novel reward parametrization designed to predict next-token rewards for efficient and effective autoregressive generation. Theoretically, we demonstrate that this parametrization can provably guide frozen LLMs toward any distribution achievable by traditional RMs within the KL-regularized reinforcement learning framework. Experimental results show that GenARM significantly outperforms prior test-time alignment baselines and matches the performance of training-time methods. Additionally, GenARM enables efficient weak-to-strong guidance, aligning larger LLMs with smaller RMs without the high costs of training larger models. Furthermore, GenARM supports multi-objective alignment, allowing real-time trade-offs between preference dimensions and catering to diverse user preferences without retraining.

GenARM : Génération guidée par récompense avec modèle de récompense autorégressif pour l'alignement au moment du test

GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

papers.abstract

Support