Инсайты из обратного: восстановление целей обучения LLM через обратное обучение.

Аннотация

Большие языковые модели (LLM), обученные с использованием обучения с подкреплением на основе обратной связи от человека (RLHF), продемонстрировали выдающиеся возможности, но их базовые функции вознаграждения и процессы принятия решений остаются непрозрачными. В данной статье представлен новый подход к интерпретации LLM путем применения обратного обучения с подкреплением (IRL) для восстановления их неявных функций вознаграждения. Мы проводим эксперименты на LLM, выравненных по токсичности, различного размера, извлекая модели вознаграждения, которые достигают до 80,40% точности в предсказании предпочтений человека. Наш анализ раскрывает ключевые идеи о неидентифицируемости функций вознаграждения, связи между размером модели и интерпретируемостью, а также потенциальные проблемы в процессе RLHF. Мы демонстрируем, что модели вознаграждения, полученные с помощью IRL, могут быть использованы для настройки новых LLM, что приводит к сопоставимой или улучшенной производительности на бенчмарках токсичности. Эта работа предоставляет новый инструмент для понимания и улучшения выравнивания LLM, с важными последствиями для ответственного развития и внедрения этих мощных систем.

English

Large language models (LLMs) trained with Reinforcement Learning from Human Feedback (RLHF) have demonstrated remarkable capabilities, but their underlying reward functions and decision-making processes remain opaque. This paper introduces a novel approach to interpreting LLMs by applying inverse reinforcement learning (IRL) to recover their implicit reward functions. We conduct experiments on toxicity-aligned LLMs of varying sizes, extracting reward models that achieve up to 80.40% accuracy in predicting human preferences. Our analysis reveals key insights into the non-identifiability of reward functions, the relationship between model size and interpretability, and potential pitfalls in the RLHF process. We demonstrate that IRL-derived reward models can be used to fine-tune new LLMs, resulting in comparable or improved performance on toxicity benchmarks. This work provides a new lens for understanding and improving LLM alignment, with implications for the responsible development and deployment of these powerful systems.

Инсайты из обратного: восстановление целей обучения LLM через обратное обучение.

Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL

Аннотация

Support