ChatPaper.aiChatPaper

Política de Lenguaje Condicionado: Un Marco General para el Ajuste Fino Multi-Objetivo Dirigible

Conditioned Language Policy: A General Framework for Steerable Multi-Objective Finetuning

July 22, 2024
Autores: Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Avinava Dubey, Alexandre Ramé, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Léonard Hussenot, Olivier Bachem, Edouard Leurent
cs.AI

Resumen

El ajuste fino basado en recompensas es crucial para alinear las políticas de lenguaje con los comportamientos deseados (por ejemplo, creatividad y seguridad). Un desafío clave aquí es desarrollar modelos de lenguaje direccionables que equilibren múltiples objetivos (conflictivos) de manera flexible y eficiente. Este documento presenta la Política de Lenguaje Condicionada (PLC), un marco general para ajustar finamente modelos de lenguaje en múltiples objetivos. Basándose en técnicas de entrenamiento multi-tarea y ajuste fino eficiente de parámetros, la PLC puede aprender modelos direccionables que intercambian objetivos conflictivos de manera efectiva en el momento de la inferencia. Es importante destacar que esto no requiere entrenar o mantener múltiples modelos para lograr diferentes equilibrios entre los objetivos. A través de un extenso conjunto de experimentos y abstracciones, mostramos que el marco de PLC aprende modelos direccionables que superan y dominan en la frontera de Pareto a los enfoques actuales más avanzados para el ajuste fino multi-objetivo.
English
Reward-based finetuning is crucial for aligning language policies with intended behaviors (e.g., creativity and safety). A key challenge here is to develop steerable language models that trade-off multiple (conflicting) objectives in a flexible and efficient manner. This paper presents Conditioned Language Policy (CLP), a general framework for finetuning language models on multiple objectives. Building on techniques from multi-task training and parameter-efficient finetuning, CLP can learn steerable models that effectively trade-off conflicting objectives at inference time. Notably, this does not require training or maintaining multiple models to achieve different trade-offs between the objectives. Through an extensive set of experiments and ablations, we show that the CLP framework learns steerable models that outperform and Pareto-dominate the current state-of-the-art approaches for multi-objective finetuning.

Summary

AI-Generated Summary

PDF102November 28, 2024