Test-Time Policy-aanpassing voor Verbeterde Meervoudige Interacties met LLM's
Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs
September 27, 2025
Auteurs: Chenxing Wei, Hong Wang, Ying He, Fei Yu, Yao Shu
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) gebruiken multi-turn interactie als een fundamenteel paradigma voor het voltooien van complexe taken. Hun prestaties verslechteren echter vaak bij langdurige interacties, omdat ze doorgaans getraind zijn op statische, single-turn data, wat hun vermogen om zich aan te passen aan real-time gebruikersfeedback belemmert. Om deze beperking aan te pakken, stellen we eerst een nieuw paradigma voor: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), dat gebruikersfeedback uit de lopende interactie gebruikt als een beloningssignaal om een latent optimaal beleid te schatten dat is afgestemd op gebruikersvoorkeuren, waarna een kleine subset van parameters wordt bijgewerkt om het model naar dit beleid te sturen, wat uiteindelijk efficiënte zelfcorrectie tijdens het gesprek mogelijk maakt. Vervolgens introduceren we Optimum-Referenced One-Step Adaptation (ROSA), een lichtgewicht algoritme dat T2PAM operationaliseert. ROSA stuurt de modelparameters in één efficiënte update stap richting een theoretisch optimaal beleid, waardoor kostbare iteratieve gradient-gebaseerde optimalisatie wordt vermeden en de rekenkundige overhead wordt geminimaliseerd. We bieden een rigoureuze theoretische analyse die garandeert dat het beleid van ROSA convergeert naar de voorkeur van de gebruiker naarmate het aantal interacties toeneemt. Uitgebreide experimenten op uitdagende benchmarks tonen aan dat ROSA aanzienlijke verbeteringen bereikt in zowel taakeffectiviteit als efficiëntie.
English
Large Language Models (LLMs) employ multi-turn interaction as a fundamental
paradigm for completing complex tasks. However, their performance often
degrades in extended interactions, as they are typically trained on static,
single-turn data, which hinders their ability to adapt to real-time user
feedback. To address this limitation, we first propose a new paradigm:
Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), which utilizes
user feedback from the ongoing interaction as a reward signal to estimate a
latent optimal policy aligned with user preferences, then updates a small
subset of parameters to steer the model toward this policy, ultimately enabling
efficient in-conversation self-correction. We then introduce Optimum-Referenced
One-Step Adaptation (ROSA), a lightweight algorithm that operationalizes T2PAM.
ROSA guides the model parameters toward a theoretical optimal policy in a
single, efficient update step, avoiding costly iterative gradient-based
optimization and minimizing computational overhead. We provide a rigorous
theoretical analysis guaranteeing that the policy of ROSA converges to the
preference of user as the number of interactions increases. Extensive
experiments on challenging benchmark demonstrate that ROSA achieves significant
improvements in both task effectiveness and efficiency.