Test-Time Policy-Anpassung für verbesserte Mehrfachinteraktionen mit LLMs

papers.abstract

Große Sprachmodelle (LLMs) verwenden Mehrfachinteraktionen als grundlegendes Paradigma zur Bewältigung komplexer Aufgaben. Ihre Leistung verschlechtert sich jedoch häufig bei längeren Interaktionen, da sie typischerweise auf statischen, einstufigen Daten trainiert werden, was ihre Fähigkeit zur Anpassung an Echtzeit-Feedback der Nutzer einschränkt. Um diese Einschränkung zu überwinden, schlagen wir zunächst ein neues Paradigma vor: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), das Nutzerfeedback aus der laufenden Interaktion als Belohnungssignal nutzt, um eine latente optimale Politik abzuschätzen, die den Nutzerpräferenzen entspricht. Anschließend wird eine kleine Teilmenge der Parameter aktualisiert, um das Modell in Richtung dieser Politik zu steuern, wodurch letztendlich eine effiziente Selbstkorrektur während der Konversation ermöglicht wird. Daraufhin führen wir Optimum-Referenced One-Step Adaptation (ROSA) ein, einen leichtgewichtigen Algorithmus, der T2PAM operationalisiert. ROSA führt die Modellparameter in einem einzigen, effizienten Aktualisierungsschritt in Richtung einer theoretisch optimalen Politik, vermeidet kostspielige iterative gradientenbasierte Optimierung und minimiert den Rechenaufwand. Wir liefern eine rigorose theoretische Analyse, die garantiert, dass die Politik von ROSA mit zunehmender Anzahl von Interaktionen gegen die Nutzerpräferenz konvergiert. Umfangreiche Experimente auf anspruchsvollen Benchmarks zeigen, dass ROSA signifikante Verbesserungen sowohl in der Aufgabenwirksamkeit als auch in der Effizienz erzielt.

English

Large Language Models (LLMs) employ multi-turn interaction as a fundamental paradigm for completing complex tasks. However, their performance often degrades in extended interactions, as they are typically trained on static, single-turn data, which hinders their ability to adapt to real-time user feedback. To address this limitation, we first propose a new paradigm: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), which utilizes user feedback from the ongoing interaction as a reward signal to estimate a latent optimal policy aligned with user preferences, then updates a small subset of parameters to steer the model toward this policy, ultimately enabling efficient in-conversation self-correction. We then introduce Optimum-Referenced One-Step Adaptation (ROSA), a lightweight algorithm that operationalizes T2PAM. ROSA guides the model parameters toward a theoretical optimal policy in a single, efficient update step, avoiding costly iterative gradient-based optimization and minimizing computational overhead. We provide a rigorous theoretical analysis guaranteeing that the policy of ROSA converges to the preference of user as the number of interactions increases. Extensive experiments on challenging benchmark demonstrate that ROSA achieves significant improvements in both task effectiveness and efficiency.

Test-Time Policy-Anpassung für verbesserte Mehrfachinteraktionen mit LLMs

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

papers.abstract

Support