Modelos de Linguagem Podem Aprender com Feedback Verbal Sem Recompensas Escalares

Resumo

Os LLMs (Modelos de Linguagem de Grande Escala) são frequentemente treinados com Aprendizado por Reforço (RL) a partir de feedback humano ou de IA, mas tais métodos geralmente comprimem feedbacks detalhados em recompensas escalares, descartando grande parte de sua riqueza e induzindo desequilíbrios de escala. Propomos tratar o feedback verbal como um sinal de condicionamento. Inspirados pelos priors de linguagem na geração de texto para imagem, que permitem saídas inovadoras a partir de prompts não vistos, introduzimos a política condicionada ao feedback (FCP). A FCP aprende diretamente de pares resposta-feedback, aproximando a posterior condicionada ao feedback por meio de treinamento de máxima verossimilhança em dados offline. Desenvolvemos ainda uma etapa de bootstrapping online, onde a política gera sob condições positivas e recebe novos feedbacks para se aprimorar. Isso reformula o aprendizado orientado por feedback como geração condicional em vez de otimização de recompensa, oferecendo uma maneira mais expressiva para os LLMs aprenderem diretamente com feedback verbal. Nosso código está disponível em https://github.com/sail-sg/feedback-conditional-policy.

English

LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.

Modelos de Linguagem Podem Aprender com Feedback Verbal Sem Recompensas Escalares

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Resumo

Support