ChatPaper.aiChatPaper

Языковые модели способны обучаться на основе вербальной обратной связи без использования скалярных вознаграждений.

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

September 26, 2025
Авторы: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI

Аннотация

LLM (крупные языковые модели) часто обучаются с использованием обучения с подкреплением (RL) на основе обратной связи от людей или ИИ, однако такие методы обычно сводят сложную обратную связь к скалярным наградам, теряя большую часть её содержания и вызывая дисбаланс масштабов. Мы предлагаем рассматривать вербальную обратную связь как сигнал для условной генерации. Вдохновлённые языковыми априорными моделями в генерации изображений по тексту, которые позволяют создавать новые результаты на основе ранее не встречавшихся запросов, мы представляем условную политику на основе обратной связи (FCP). FCP обучается непосредственно на парах «ответ-обратная связь», аппроксимируя условное апостериорное распределение с помощью максимизации правдоподобия на оффлайн-данных. Мы также разрабатываем этап онлайн-бутстраппинга, в ходе которого политика генерирует ответы в условиях положительной обратной связи и получает новую обратную связь для самосовершенствования. Это переосмысливает обучение на основе обратной связи как условную генерацию, а не оптимизацию наград, предлагая более выразительный способ для LLM напрямую обучаться на вербальной обратной связи. Наш код доступен по адресу: https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.
PDF573September 29, 2025