ChatPaper.aiChatPaper

Text2Grad: Reinforcement Learning op basis van Natuurlijke Taal Feedback

Text2Grad: Reinforcement Learning from Natural Language Feedback

May 28, 2025
Auteurs: Hanyang Wang, Lu Wang, Chaoyun Zhang, Tianjun Mao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI

Samenvatting

Traditionele RLHF optimaliseert taalmodelen met grove, scalaire beloningen die de fijnmijnerige redenen achter succes of falen maskeren, wat leidt tot traag en ondoorgrondelijk leren. Recent werk versterkt RL met tekstuele kritieken via prompting of reflectie, wat de interpreteerbaarheid verbetert maar de modelparameters onaangeroerd laat. Wij introduceren Text2Grad, een reinforcement-learning paradigma dat vrije-vorm tekstuele feedback omzet in span-niveau gradiënten. Gegeven menselijke (of programmatische) kritieken, align Text2Grad elke feedbackzin met de relevante token spans, zet deze alignaties om in differentieerbare beloningssignalen, en voert gradiëntupdates uit die direct de aanstootgevende delen van het modelbeleid verfijnen. Dit resulteert in precieze, feedback-gestuurde aanpassingen in plaats van globale duwtjes. Text2Grad wordt gerealiseerd door drie componenten: (1) een hoogwaardige feedback-annotatiepijplijn die kritieken koppelt aan token spans; (2) een fijnmijnerig beloningsmodel dat span-niveau beloning voorspelt op antwoorden terwijl het verklarende kritieken genereert; en (3) een span-niveau beleidsoptimalisator die natuurlijke-taal gradiënten terugpropageert. Over samenvatting, codegeneratie en vraagbeantwoording heen, overtreft Text2Grad consistent scalaire-beloning RL en prompt-only basislijnen, en biedt zowel hogere taakmetrieken als rijkere interpreteerbaarheid. Onze resultaten tonen aan dat natuurlijke-taal feedback, wanneer omgezet in gradiënten, een krachtig signaal is voor fijnmijnerige beleidsoptimalisatie. De code voor onze methode is beschikbaar op https://github.com/microsoft/Text2Grad.
English
Traditional RLHF optimizes language models with coarse, scalar rewards that mask the fine-grained reasons behind success or failure, leading to slow and opaque learning. Recent work augments RL with textual critiques through prompting or reflection, improving interpretability but leaving model parameters untouched. We introduce Text2Grad, a reinforcement-learning paradigm that turns free-form textual feedback into span-level gradients. Given human (or programmatic) critiques, Text2Grad aligns each feedback phrase with the relevant token spans, converts these alignments into differentiable reward signals, and performs gradient updates that directly refine the offending portions of the model's policy. This yields precise, feedback-conditioned adjustments instead of global nudges. Text2Grad is realized through three components: (1) a high-quality feedback-annotation pipeline that pairs critiques with token spans; (2) a fine-grained reward model that predicts span-level reward on answer while generating explanatory critiques; and (3) a span-level policy optimizer that back-propagates natural-language gradients. Across summarization, code generation, and question answering, Text2Grad consistently surpasses scalar-reward RL and prompt-only baselines, providing both higher task metrics and richer interpretability. Our results demonstrate that natural-language feedback, when converted to gradients, is a powerful signal for fine-grained policy optimization. The code for our method is available at https://github.com/microsoft/Text2Grad
PDF82May 29, 2025