ChatPaper.aiChatPaper

Los modelos de lenguaje pueden aprender a partir de retroalimentación verbal sin recompensas escalares.

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

September 26, 2025
Autores: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI

Resumen

Los LLM (Modelos de Lenguaje de Gran Escala) suelen entrenarse con Aprendizaje por Refuerzo (RL) a partir de retroalimentación humana o de IA; sin embargo, estos métodos suelen comprimir la retroalimentación matizada en recompensas escalares, descartando gran parte de su riqueza e induciendo un desequilibrio de escala. Proponemos tratar la retroalimentación verbal como una señal de condicionamiento. Inspirados por los antecedentes lingüísticos en la generación de texto a imagen, que permiten salidas novedosas a partir de indicaciones no vistas, introducimos la política condicionada por retroalimentación (FCP, por sus siglas en inglés). La FCP aprende directamente de pares respuesta-retroalimentación, aproximando la distribución posterior condicionada por retroalimentación mediante entrenamiento de máxima verosimilitud sobre datos fuera de línea. Además, desarrollamos una etapa de arranque en línea donde la política genera bajo condiciones positivas y recibe retroalimentación fresca para refinarse. Esto replantea el aprendizaje basado en retroalimentación como generación condicionada en lugar de optimización de recompensas, ofreciendo una forma más expresiva para que los LLM aprendan directamente de la retroalimentación verbal. Nuestro código está disponible en https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods typically compress nuanced feedback into scalar rewards, discarding much of their richness and inducing scale imbalance. We propose treating verbal feedback as a conditioning signal. Inspired by language priors in text-to-image generation, which enable novel outputs from unseen prompts, we introduce the feedback-conditional policy (FCP). FCP learns directly from response-feedback pairs, approximating the feedback-conditional posterior through maximum likelihood training on offline data. We further develop an online bootstrapping stage where the policy generates under positive conditions and receives fresh feedback to refine itself. This reframes feedback-driven learning as conditional generation rather than reward optimization, offering a more expressive way for LLMs to directly learn from verbal feedback. Our code is available at https://github.com/sail-sg/feedback-conditional-policy.
PDF573September 29, 2025