Woorden en Gewichten: Stroomlijnen van Meerronde Interacties via Co-Adaptatie

Samenvatting

Test-time policy-aanpassing voor multi-turn interacties (T2PAM) is essentieel om Large Language Models (LLM's) af te stemmen op dynamische gebruikersbehoeften tijdens de inferentiefase. Bestaande paradigma's behandelen test-time-aanpassing echter vaak als een enkelvoudig probleem, waarbij ze puur instructies verfijnen (Prompt Engineering) of alleen gewichten aanpassen (Test-Time Training), en negeren dat interactiefouten voortkomen uit een gekoppelde mix van ambiguïteit en onvermogen. Wij beargumenteren dat deze twee optimalisatiepaden niet slechts additief zijn, maar synergetisch: semantische duidelijkheid fungeert als een voorconditionerder voor effectieve parameterupdates. Daarom stellen we ROSA2 voor, een framework dat interactie herformuleert als een gezamenlijk optimalisatieprobleem over de heterogene ruimte van Woorden en Gewichten. Door het foutsignaal wiskundig te decomponeren, benut ROSA2 tekstuele gradienten om intentie-ambiguïteit te rectificeren en parameterupdates om capaciteitshiaten te overbruggen. Theoretisch bewijzen we dat deze co-adaptatie de benodigde parametershift voor convergentie strikt vermindert. Empirisch presteert ROSA2 30% beter dan state-of-the-art baseline-methoden op MATH, terwijl het aantal interactiebeurten met 40% wordt gereduceerd, wat aantoont dat het verfijnen van de context het ware potentieel van parameterupdates ontsluit.

English

Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.

Woorden en Gewichten: Stroomlijnen van Meerronde Interacties via Co-Adaptatie

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

Samenvatting

Support