Sprachmodelle können aus verbalem Feedback lernen, ohne skalare Belohnungen zu benötigen.
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
September 26, 2025
papers.authors: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI
papers.abstract
LLMs werden häufig mit Reinforcement Learning (RL) aus menschlichem oder KI-Feedback trainiert, doch solche Methoden komprimieren typischerweise differenziertes Feedback in skalare Belohnungen, wodurch ein Großteil ihrer Vielfalt verloren geht und Skalenungleichgewichte entstehen. Wir schlagen vor, verbales Feedback als Konditionierungssignal zu behandeln. Inspiriert von Sprachpriors in der Text-zu-Bild-Generierung, die neuartige Ausgaben aus unbekannten Eingabeaufforderungen ermöglichen, führen wir die feedback-konditionierte Policy (FCP) ein. FCP lernt direkt aus Antwort-Feedback-Paaren und approximiert das feedback-konditionierte Posterior durch Maximum-Likelihood-Training auf Offline-Daten. Wir entwickeln weiterhin eine Online-Bootstrapping-Phase, in der die Policy unter positiven Bedingungen generiert und neues Feedback erhält, um sich selbst zu verfeinern. Dies formuliert feedback-gesteuertes Lernen als bedingte Generierung anstelle von Belohnungsoptimierung um und bietet eine ausdrucksstärkere Möglichkeit für LLMs, direkt aus verbalem Feedback zu lernen. Unser Code ist verfügbar unter https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods
typically compress nuanced feedback into scalar rewards, discarding much of
their richness and inducing scale imbalance. We propose treating verbal
feedback as a conditioning signal. Inspired by language priors in text-to-image
generation, which enable novel outputs from unseen prompts, we introduce the
feedback-conditional policy (FCP). FCP learns directly from response-feedback
pairs, approximating the feedback-conditional posterior through maximum
likelihood training on offline data. We further develop an online bootstrapping
stage where the policy generates under positive conditions and receives fresh
feedback to refine itself. This reframes feedback-driven learning as
conditional generation rather than reward optimization, offering a more
expressive way for LLMs to directly learn from verbal feedback. Our code is
available at https://github.com/sail-sg/feedback-conditional-policy.