ChatPaper.aiChatPaper

条件付き言語ポリシー:多目的ファインチューニングのための汎用的な制御フレームワーク

Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning

July 22, 2024
著者: Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre Ramé, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Léonard Hussenot, Olivier Bachem, Edouard Leurent
cs.AI

要旨

報酬ベースのファインチューニングは、言語ポリシーを意図した行動(例:創造性と安全性)に整合させるために重要です。ここでの主要な課題は、複数の(相反する)目的を柔軟かつ効率的にトレードオフできる操縦可能な言語モデルを開発することです。本論文では、複数の目的に対して言語モデルをファインチューニングするための一般的なフレームワークであるConditioned Language Policy(CLP)を提案します。マルチタスク学習とパラメータ効率の良いファインチューニングの技術を基盤として、CLPは推論時に相反する目的を効果的にトレードオフする操縦可能なモデルを学習できます。特に、目的間の異なるトレードオフを達成するために複数のモデルを訓練または維持する必要はありません。広範な実験とアブレーションを通じて、CLPフレームワークが学習する操縦可能なモデルが、マルチ目的ファインチューニングにおける現在の最先端アプローチを上回り、パレート優位であることを示します。
English
Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge here is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditioned Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP can learn steerable models that effectively trade-off conflicting objectives at inference time. Notably, this does not require training or maintaining multiple models to achieve different trade-offs between the objectives. Through an extensive set of experiments and ablations, we show that the CLP framework learns steerable models that outperform and Pareto-dominate the current state-of-the-art approaches for multi-objective finetuning.

Summary

AI-Generated Summary

PDF102November 28, 2024