Modelos de Linguagem Podem Aprender com Feedback Verbal Sem Recompensas Escalares
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
September 26, 2025
Autores: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI
Resumo
Os LLMs (Modelos de Linguagem de Grande Escala) são frequentemente treinados com Aprendizado por Reforço (RL) a partir de feedback humano ou de IA, mas tais métodos geralmente comprimem feedbacks detalhados em recompensas escalares, descartando grande parte de sua riqueza e induzindo desequilíbrios de escala. Propomos tratar o feedback verbal como um sinal de condicionamento. Inspirados pelos priors de linguagem na geração de texto para imagem, que permitem saídas inovadoras a partir de prompts não vistos, introduzimos a política condicionada ao feedback (FCP). A FCP aprende diretamente de pares resposta-feedback, aproximando a posterior condicionada ao feedback por meio de treinamento de máxima verossimilhança em dados offline. Desenvolvemos ainda uma etapa de bootstrapping online, onde a política gera sob condições positivas e recebe novos feedbacks para se aprimorar. Isso reformula o aprendizado orientado por feedback como geração condicional em vez de otimização de recompensa, oferecendo uma maneira mais expressiva para os LLMs aprenderem diretamente com feedback verbal. Nosso código está disponível em https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods
typically compress nuanced feedback into scalar rewards, discarding much of
their richness and inducing scale imbalance. We propose treating verbal
feedback as a conditioning signal. Inspired by language priors in text-to-image
generation, which enable novel outputs from unseen prompts, we introduce the
feedback-conditional policy (FCP). FCP learns directly from response-feedback
pairs, approximating the feedback-conditional posterior through maximum
likelihood training on offline data. We further develop an online bootstrapping
stage where the policy generates under positive conditions and receives fresh
feedback to refine itself. This reframes feedback-driven learning as
conditional generation rather than reward optimization, offering a more
expressive way for LLMs to directly learn from verbal feedback. Our code is
available at https://github.com/sail-sg/feedback-conditional-policy.