ChatPaper.aiChatPaper

Wörter & Gewichte: Straffung von Mehrschritt-Interaktionen durch Ko-Adaptation

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

March 2, 2026
Autoren: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu
cs.AI

Zusammenfassung

Test-time Policy Adaptation for Multi-Turn Interactions (T2PAM) ist entscheidend, um Large Language Models (LLMs) mit dynamischen Benutzerbedürfnissen während der Inferenzzeit in Einklang zu bringen. Bisherige Paradigmen behandeln Testzeit-Anpassung jedoch häufig als ein Problem mit nur einer Optimierungsachse, indem sie entweder ausschließlich Instruktionen verfeinern (Prompt Engineering) oder nur Gewichte anpassen (Test-Time Training). Dabei wird ignoriert, dass Interaktionsfehler aus einer kombinierten Mischung von Mehrdeutigkeit und Unfähigkeit resultieren. Wir vertreten die Auffassung, dass diese beiden Optimierungspfade nicht nur additiv, sondern synergetisch sind: Semantische Klarheit wirkt als Vorkonditionierer für effektive Parameteraktualisierungen. Zu diesem Zweck schlagen wir ROSA2 vor, ein Framework, das Interaktion als ein gemeinsames Optimierungsproblem im heterogenen Raum von Wörtern und Gewichten neu formuliert. Durch mathematische Zerlegung des Fehlersignals nutzt ROSA2 textuelle Gradienten, um Intentionsmehrdeutigkeit zu korrigieren, und Parameteraktualisierungen, um Fähigkeitslücken zu schließen. Theoretisch beweisen wir, dass diese Ko-Adaptation den für die Konvergenz erforderlichen Parameterwechsel strikt reduziert. Empirisch übertrifft ROSA2 state-of-the-art Baseline-Methoden auf MATH um 30 %, bei gleichzeitiger Reduzierung der Interaktionsschritte um 40 %. Dies demonstriert, dass die Verfeinerung des Kontextes das wahre Potenzial von Parameteraktualisierungen freisetzt.
English
Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.
PDF12May 8, 2026