Taalmodellen kunnen leren van verbale feedback zonder schaalbare beloningen.

Samenvatting

LLM's worden vaak getraind met RL (Reinforcement Learning) op basis van menselijke of AI-feedback, maar dergelijke methoden comprimeren doorgaans genuanceerde feedback tot scalaire beloningen, waardoor veel van hun rijkdom verloren gaat en schaalonevenwicht ontstaat. Wij stellen voor om verbale feedback te behandelen als een conditioneringssignaal. Geïnspireerd door taalprioriteiten in tekst-naar-beeldgeneratie, die nieuwe uitvoer mogelijk maken vanuit ongeziene prompts, introduceren we het feedback-conditionele beleid (FCP). FCP leert direct uit respons-feedbackparen en benadert de feedback-conditionele posterior via maximum likelihood training op offline data. We ontwikkelen verder een online bootstrapping-fase waarin het beleid genereert onder positieve condities en nieuwe feedback ontvangt om zichzelf te verfijnen. Dit herformuleert feedback-gestuurd leren als conditionele generatie in plaats van beloningsoptimalisatie, wat een expressievere manier biedt voor LLM's om direct te leren van verbale feedback. Onze code is beschikbaar op https://github.com/sail-sg/feedback-conditional-policy.

English

LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.

Taalmodellen kunnen leren van verbale feedback zonder schaalbare beloningen.

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Samenvatting

Support