Los modelos de lenguaje pueden aprender a partir de retroalimentación verbal sin recompensas escalares.
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
September 26, 2025
Autores: Renjie Luo, Zichen Liu, Xiangyan Liu, Chao Du, Min Lin, Wenhu Chen, Wei Lu, Tianyu Pang
cs.AI
Resumen
Los LLM (Modelos de Lenguaje de Gran Escala) suelen entrenarse con Aprendizaje por Refuerzo (RL) a partir de retroalimentación humana o de IA; sin embargo, estos métodos suelen comprimir la retroalimentación matizada en recompensas escalares, descartando gran parte de su riqueza e induciendo un desequilibrio de escala. Proponemos tratar la retroalimentación verbal como una señal de condicionamiento. Inspirados por los antecedentes lingüísticos en la generación de texto a imagen, que permiten salidas novedosas a partir de indicaciones no vistas, introducimos la política condicionada por retroalimentación (FCP, por sus siglas en inglés). La FCP aprende directamente de pares respuesta-retroalimentación, aproximando la distribución posterior condicionada por retroalimentación mediante entrenamiento de máxima verosimilitud sobre datos fuera de línea. Además, desarrollamos una etapa de arranque en línea donde la política genera bajo condiciones positivas y recibe retroalimentación fresca para refinarse. Esto replantea el aprendizaje basado en retroalimentación como generación condicionada en lugar de optimización de recompensas, ofreciendo una forma más expresiva para que los LLM aprendan directamente de la retroalimentación verbal. Nuestro código está disponible en https://github.com/sail-sg/feedback-conditional-policy.
English
LLMs are often trained with RL from human or AI feedback, yet such methods
typically compress nuanced feedback into scalar rewards, discarding much of
their richness and inducing scale imbalance. We propose treating verbal
feedback as a conditioning signal. Inspired by language priors in text-to-image
generation, which enable novel outputs from unseen prompts, we introduce the
feedback-conditional policy (FCP). FCP learns directly from response-feedback
pairs, approximating the feedback-conditional posterior through maximum
likelihood training on offline data. We further develop an online bootstrapping
stage where the policy generates under positive conditions and receives fresh
feedback to refine itself. This reframes feedback-driven learning as
conditional generation rather than reward optimization, offering a more
expressive way for LLMs to directly learn from verbal feedback. Our code is
available at https://github.com/sail-sg/feedback-conditional-policy.