ChatPaper.aiChatPaper

I modelli linguistici possono apprendere da feedback verbali senza ricompense scalari.

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

September 26, 2025
Autori: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI

Abstract

I LLM vengono spesso addestrati con RL (Reinforcement Learning) basato su feedback umano o di IA, ma tali metodi tipicamente comprimono feedback sfumati in ricompense scalari, perdendo gran parte della loro ricchezza e causando squilibri di scala. Proponiamo di trattare il feedback verbale come un segnale di condizionamento. Ispirati dai prior linguistici nella generazione di immagini da testo, che consentono output nuovi da prompt mai visti, introduciamo la politica condizionata al feedback (FCP, Feedback-Conditional Policy). La FCP apprende direttamente da coppie risposta-feedback, approssimando la distribuzione a posteriori condizionata al feedback attraverso l'addestramento a massima verosimiglianza su dati offline. Sviluppiamo inoltre una fase di bootstrapping online in cui la politica genera in condizioni positive e riceve nuovo feedback per affinarsi. Questo riformula l'apprendimento guidato dal feedback come generazione condizionata piuttosto che ottimizzazione delle ricompense, offrendo un modo più espressivo per i LLM di apprendere direttamente dal feedback verbale. Il nostro codice è disponibile all'indirizzo https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.
PDF673September 29, 2025