조건부 언어 정책: 다목적 미세조정을 위한 일반적 프레임워크
Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning
July 22, 2024
저자: Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre Ramé, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Léonard Hussenot, Olivier Bachem, Edouard Leurent
cs.AI
초록
보상 기반 미세 조정은 언어 정책을 의도된 행동(예: 창의성과 안전성)과 일치시키는 데 중요합니다. 여기서 주요 과제는 여러 (상충하는) 목표를 유연하고 효율적으로 절충할 수 있는 조정 가능한 언어 모델을 개발하는 것입니다. 본 논문은 다중 목표에 대한 언어 모델 미세 조정을 위한 일반적인 프레임워크인 Conditioned Language Policy(CLP)를 제시합니다. 다중 작업 학습과 파라미터 효율적 미세 조정 기술을 기반으로, CLP는 추론 시 상충하는 목표를 효과적으로 절충할 수 있는 조정 가능한 모델을 학습할 수 있습니다. 특히, 이는 목표 간 다양한 절충을 달성하기 위해 여러 모델을 학습하거나 유지할 필요가 없습니다. 광범위한 실험과 제거 실험을 통해, CLP 프레임워크가 다중 목표 미세 조정을 위한 현재 최첨단 접근법을 능가하고 파레토 우위를 점하는 조정 가능한 모델을 학습한다는 것을 보여줍니다.
English
Reward-based finetuning is crucial for aligning language policies with
intended behaviors (e.g., creativity and safety). A key challenge here is to
develop steerable language models that trade-off multiple (conflicting)
objectives in a flexible and efficient manner. This paper presents Conditioned
Language Policy (CLP), a general framework for finetuning language models on
multiple objectives. Building on techniques from multi-task training and
parameter-efficient finetuning, CLP can learn steerable models that effectively
trade-off conflicting objectives at inference time. Notably, this does not
require training or maintaining multiple models to achieve different trade-offs
between the objectives. Through an extensive set of experiments and ablations,
we show that the CLP framework learns steerable models that outperform and
Pareto-dominate the current state-of-the-art approaches for multi-objective
finetuning.Summary
AI-Generated Summary