Инсайты из обратного: восстановление целей обучения LLM через обратное обучение.
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL
October 16, 2024
Авторы: Jared Joselowitz, Arjun Jagota, Satyapriya Krishna, Sonali Parbhoo
cs.AI
Аннотация
Большие языковые модели (LLM), обученные с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), продемонстрировали выдающиеся возможности, но их базовые функции вознаграждения и процессы принятия решений остаются непрозрачными. В данной статье представлен новый подход к интерпретации LLM путем применения обратного обучения с подкреплением (IRL) для восстановления их неявных функций вознаграждения. Мы проводим эксперименты на LLM, выравненных по токсичности, различного размера, извлекая модели вознаграждения, которые достигают до 80,40% точности в предсказании предпочтений человека. Наш анализ раскрывает ключевые идеи о неидентифицируемости функций вознаграждения, связи между размером модели и интерпретируемостью, а также потенциальные проблемы в процессе RLHF. Мы демонстрируем, что модели вознаграждения, полученные с помощью IRL, могут быть использованы для настройки новых LLM, что приводит к сопоставимой или улучшенной производительности на бенчмарках токсичности. Эта работа предоставляет новый инструмент для понимания и улучшения выравнивания LLM, с важными последствиями для ответственного развития и внедрения этих мощных систем.
English
Large language models (LLMs) trained with Reinforcement Learning from Human
Feedback (RLHF) have demonstrated remarkable capabilities, but their underlying
reward functions and decision-making processes remain opaque. This paper
introduces a novel approach to interpreting LLMs by applying inverse
reinforcement learning (IRL) to recover their implicit reward functions. We
conduct experiments on toxicity-aligned LLMs of varying sizes, extracting
reward models that achieve up to 80.40% accuracy in predicting human
preferences. Our analysis reveals key insights into the non-identifiability of
reward functions, the relationship between model size and interpretability, and
potential pitfalls in the RLHF process. We demonstrate that IRL-derived reward
models can be used to fine-tune new LLMs, resulting in comparable or improved
performance on toxicity benchmarks. This work provides a new lens for
understanding and improving LLM alignment, with implications for the
responsible development and deployment of these powerful systems.Summary
AI-Generated Summary