ChatPaper.aiChatPaper

Позволить языковым моделям неявно обучаться самосовершенствованию на основе данных

Enable Language Models to Implicitly Learn Self-Improvement From Data

October 2, 2023
Авторы: Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в задачах генерации открытого текста. Однако присущая этим задачам открытость подразумевает, что всегда есть возможности для улучшения качества ответов модели. Для решения этой проблемы были предложены различные подходы к повышению производительности LLM. В последнее время всё больше внимания уделяется способности LLM самостоятельно улучшать качество своих ответов, что снижает зависимость от трудоёмких усилий по аннотированию данных для сбора разнообразных и качественных обучающих данных. Среди методов самоулучшения широко исследуются методы, основанные на промптинге, благодаря их эффективности, производительности и удобству. Однако такие методы обычно требуют явного и детального написания критериев в качестве входных данных для LLM. Вручную разработать и предоставить все необходимые критерии для сложной цели улучшения (например, быть более полезным и менее вредным) — это дорогостоящая и сложная задача. В связи с этим мы предлагаем фреймворк ImPlicit Self-ImprovemenT (PIT), который неявно обучается цели улучшения на основе данных о человеческих предпочтениях. PIT требует только данных о предпочтениях, которые используются для обучения моделей вознаграждения, без дополнительных усилий со стороны человека. В частности, мы переформулируем цель обучения в рамках подхода обучения с подкреплением на основе обратной связи от человека (RLHF): вместо максимизации качества ответа для заданного входа мы максимизируем разницу в качестве ответа при условии наличия эталонного ответа. Таким образом, PIT неявно обучается с целью улучшения, заключающейся в лучшем соответствии человеческим предпочтениям. Эксперименты на двух реальных наборах данных и одном синтетическом показывают, что наш метод значительно превосходит методы, основанные на промптинге.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies that there is always room for improvement in the quality of model responses. To address this challenge, various approaches have been proposed to enhance the performance of LLMs. There has been a growing focus on enabling LLMs to self-improve their response quality, thereby reducing the reliance on extensive human annotation efforts for collecting diverse and high-quality training data. Recently, prompting-based methods have been widely explored among self-improvement methods owing to their effectiveness, efficiency, and convenience. However, those methods usually require explicitly and thoroughly written rubrics as inputs to LLMs. It is expensive and challenging to manually derive and provide all necessary rubrics with a real-world complex goal for improvement (e.g., being more helpful and less harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework that implicitly learns the improvement goal from human preference data. PIT only requires preference data that are used to train reward models without extra human efforts. Specifically, we reformulate the training objective of reinforcement learning from human feedback (RLHF) -- instead of maximizing response quality for a given input, we maximize the quality gap of the response conditioned on a reference response. In this way, PIT is implicitly trained with the improvement goal of better aligning with human preferences. Experiments on two real-world datasets and one synthetic dataset show that our method significantly outperforms prompting-based methods.
PDF232December 15, 2024