Test-Time Policy-Anpassung für verbesserte Mehrfachinteraktionen mit LLMs
Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs
September 27, 2025
papers.authors: Chenxing Wei, Hong Wang, Ying He, Fei Yu, Yao Shu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) verwenden Mehrfachinteraktionen als grundlegendes Paradigma zur Bewältigung komplexer Aufgaben. Ihre Leistung verschlechtert sich jedoch häufig bei längeren Interaktionen, da sie typischerweise auf statischen, einstufigen Daten trainiert werden, was ihre Fähigkeit zur Anpassung an Echtzeit-Feedback der Nutzer einschränkt. Um diese Einschränkung zu überwinden, schlagen wir zunächst ein neues Paradigma vor: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), das Nutzerfeedback aus der laufenden Interaktion als Belohnungssignal nutzt, um eine latente optimale Politik abzuschätzen, die den Nutzerpräferenzen entspricht. Anschließend wird eine kleine Teilmenge der Parameter aktualisiert, um das Modell in Richtung dieser Politik zu steuern, wodurch letztendlich eine effiziente Selbstkorrektur während der Konversation ermöglicht wird. Daraufhin führen wir Optimum-Referenced One-Step Adaptation (ROSA) ein, einen leichtgewichtigen Algorithmus, der T2PAM operationalisiert. ROSA führt die Modellparameter in einem einzigen, effizienten Aktualisierungsschritt in Richtung einer theoretisch optimalen Politik, vermeidet kostspielige iterative gradientenbasierte Optimierung und minimiert den Rechenaufwand. Wir liefern eine rigorose theoretische Analyse, die garantiert, dass die Politik von ROSA mit zunehmender Anzahl von Interaktionen gegen die Nutzerpräferenz konvergiert. Umfangreiche Experimente auf anspruchsvollen Benchmarks zeigen, dass ROSA signifikante Verbesserungen sowohl in der Aufgabenwirksamkeit als auch in der Effizienz erzielt.
English
Large Language Models (LLMs) employ multi-turn interaction as a fundamental
paradigm for completing complex tasks. However, their performance often
degrades in extended interactions, as they are typically trained on static,
single-turn data, which hinders their ability to adapt to real-time user
feedback. To address this limitation, we first propose a new paradigm:
Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), which utilizes
user feedback from the ongoing interaction as a reward signal to estimate a
latent optimal policy aligned with user preferences, then updates a small
subset of parameters to steer the model toward this policy, ultimately enabling
efficient in-conversation self-correction. We then introduce Optimum-Referenced
One-Step Adaptation (ROSA), a lightweight algorithm that operationalizes T2PAM.
ROSA guides the model parameters toward a theoretical optimal policy in a
single, efficient update step, avoiding costly iterative gradient-based
optimization and minimizing computational overhead. We provide a rigorous
theoretical analysis guaranteeing that the policy of ROSA converges to the
preference of user as the number of interactions increases. Extensive
experiments on challenging benchmark demonstrate that ROSA achieves significant
improvements in both task effectiveness and efficiency.