Les modèles de langage peuvent apprendre à partir de retours verbaux sans récompenses scalaires.
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
September 26, 2025
papers.authors: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI
papers.abstract
Les LLM (modèles de langage de grande taille) sont souvent entraînés par apprentissage par renforcement (RL) à partir de retours humains ou d'IA. Cependant, ces méthodes compressent généralement les retours nuancés en récompenses scalaires, perdant ainsi une grande partie de leur richesse et induisant un déséquilibre d'échelle. Nous proposons de traiter les retours verbaux comme un signal de conditionnement. Inspirés par les a priori linguistiques dans la génération de texte à partir d'images, qui permettent des sorties novatrices à partir de prompts inédits, nous introduisons la politique conditionnée par les retours (FCP, Feedback-Conditional Policy). La FCP apprend directement à partir de paires réponse-retour, en approximant la distribution a posteriori conditionnée par les retours grâce à un entraînement par maximum de vraisemblance sur des données hors ligne. Nous développons en outre une étape de bootstrap en ligne où la politique génère sous des conditions positives et reçoit de nouveaux retours pour s'affiner. Cela reformule l'apprentissage basé sur les retours en tant que génération conditionnelle plutôt qu'optimisation de récompense, offrant une manière plus expressive pour les LLM d'apprendre directement à partir de retours verbaux. Notre code est disponible à l'adresse suivante : https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods
typically compress nuanced feedback into scalar rewards, discarding much of
their richness and inducing scale imbalance. We propose treating verbal
feedback as a conditioning signal. Inspired by language priors in text-to-image
generation, which enable novel outputs from unseen prompts, we introduce the
feedback-conditional policy (FCP). FCP learns directly from response-feedback
pairs, approximating the feedback-conditional posterior through maximum
likelihood training on offline data. We further develop an online bootstrapping
stage where the policy generates under positive conditions and receives fresh
feedback to refine itself. This reframes feedback-driven learning as
conditional generation rather than reward optimization, offering a more
expressive way for LLMs to directly learn from verbal feedback. Our code is
available at https://github.com/sail-sg/feedback-conditional-policy.