Taalmodellen kunnen leren van verbale feedback zonder schaalbare beloningen.
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
September 26, 2025
Auteurs: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI
Samenvatting
LLM's worden vaak getraind met RL (Reinforcement Learning) op basis van menselijke of AI-feedback, maar dergelijke methoden comprimeren doorgaans genuanceerde feedback tot scalaire beloningen, waardoor veel van hun rijkdom verloren gaat en schaalonevenwicht ontstaat. Wij stellen voor om verbale feedback te behandelen als een conditioneringssignaal. Geïnspireerd door taalprioriteiten in tekst-naar-beeldgeneratie, die nieuwe uitvoer mogelijk maken vanuit ongeziene prompts, introduceren we het feedback-conditionele beleid (FCP). FCP leert direct uit respons-feedbackparen en benadert de feedback-conditionele posterior via maximum likelihood training op offline data. We ontwikkelen verder een online bootstrapping-fase waarin het beleid genereert onder positieve condities en nieuwe feedback ontvangt om zichzelf te verfijnen. Dit herformuleert feedback-gestuurd leren als conditionele generatie in plaats van beloningsoptimalisatie, wat een expressievere manier biedt voor LLM's om direct te leren van verbale feedback. Onze code is beschikbaar op https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods
typically compress nuanced feedback into scalar rewards, discarding much of
their richness and inducing scale imbalance. We propose treating verbal
feedback as a conditioning signal. Inspired by language priors in text-to-image
generation, which enable novel outputs from unseen prompts, we introduce the
feedback-conditional policy (FCP). FCP learns directly from response-feedback
pairs, approximating the feedback-conditional posterior through maximum
likelihood training on offline data. We further develop an online bootstrapping
stage where the policy generates under positive conditions and receives fresh
feedback to refine itself. This reframes feedback-driven learning as
conditional generation rather than reward optimization, offering a more
expressive way for LLMs to directly learn from verbal feedback. Our code is
available at https://github.com/sail-sg/feedback-conditional-policy.