Mots et poids : Rationaliser les interactions multi-tours par co-adaptation
Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation
March 2, 2026
Auteurs: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu
cs.AI
Résumé
L'adaptation des politiques en temps de test pour les interactions multi-tours (T2PAM) est essentielle pour aligner les grands modèles de langage (LLM) sur les besoins dynamiques des utilisateurs durant l'inférence. Cependant, les paradigmes existants considèrent généralement l'adaptation en temps de test comme un problème à axe unique, se contentant soit d'affiner les instructions (Ingénierie des prompts), soit d'ajuster les poids (Apprentissage en temps de test), ignorant que les échecs d'interaction découlent d'un mélange couplé d'ambiguïté et d'incapacité. Nous soutenons que ces deux voies d'optimisation ne sont pas simplement additives mais synergiques : la clarté sémantique agit comme un préconditionneur pour des mises à jour efficaces des paramètres. À cette fin, nous proposons ROSA2, un cadre qui reformule l'interaction comme un problème d'optimisation conjointe sur l'espace hétérogène des Mots et des Poids. En décomposant mathématiquement le signal d'erreur, ROSA2 utilise des gradients textuels pour rectifier l'ambiguïté de l'intention et des mises à jour paramétriques pour combler les lacunes de capacité. Théoriquement, nous prouvons que cette co-adaptation réduit strictement le décalage paramétrique requis pour la convergence. Empiriquement, ROSA2 surpasse les meilleures méthodes de référence de 30 % sur MATH tout en réduisant les tours d'interaction de 40 %, démontrant qu'affiner le contexte libère le véritable potentiel des mises à jour paramétriques.
English
Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.