Parole e Pesi: Razionalizzare le Interazioni Multi-Turn tramite Co-Adattamento

Abstract

L'adattamento della politica al momento del test per interazioni multi-turno (T2PAM) è essenziale per allineare i Large Language Model (LLM) con le esigenze dinamiche dell'utente durante il tempo di inferenza. Tuttavia, i paradigmi esistenti trattano comunemente l'adattamento al test come un problema a singolo asse, perfezionando puramente le istruzioni (Prompt Engineering) o aggiustando solo i pesi (Test-Time Training), ignorando che i fallimenti interattivi derivano da un mix accoppiato di ambiguità e incapacità. Sosteniamo che questi due percorsi di ottimizzazione non sono meramente additivi ma sinergici: la chiarezza semantica agisce come pre-condizionatore per aggiornamenti parametrici efficaci. A tal fine, proponiamo ROSA2, un framework che riformula l'interazione come un problema di ottimizzazione congiunta sullo spazio eterogeneo di Parole e Pesi. Scomponendo matematicamente il segnale d'errore, ROSA2 utilizza gradienti testuali per rettificare l'ambiguità dell'intento e aggiornamenti parametrici per colmare le lacune di capacità. Teoricamente, dimostriamo che questa co-adattamento riduce rigorosamente lo spostamento parametrico richiesto per la convergenza. Empiricamente, ROSA2 supera i baseline state-of-the-art del 30% su MATH riducendo al contempo i turni di interazione del 40%, dimostrando che affinare il contesto sblocca il vero potenziale degli aggiornamenti parametrici.

English

Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.

Parole e Pesi: Razionalizzare le Interazioni Multi-Turn tramite Co-Adattamento

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

Abstract

Support