Palavras e Pesos: Otimizando Interações Multiturno por meio da Co-adaptação

Resumo

A adaptação de políticas em tempo de teste para interações multi-turno (T2PAM) é essencial para alinhar os Grandes Modelos de Linguagem (LLMs) com as necessidades dinâmicas dos utilizadores durante o tempo de inferência. No entanto, os paradigmas existentes geralmente tratam a adaptação em tempo de teste como um problema de eixo único, refinando puramente instruções (Engenharia de *Prompts*) ou apenas ajustando pesos (Treino em Tempo de Teste), ignorando que as falhas de interação derivam de uma mistura acoplada de ambiguidade e incapacidade. Argumentamos que estas duas vias de otimização não são meramente aditivas, mas sinérgicas: a clareza semântica atua como um pré-condicionador para atualizações de parâmetros eficazes. Para tal, propomos o ROSA2, um *framework* que reformula a interação como um problema de otimização conjunta sobre o espaço heterogéneo de Palavras e Pesos. Ao decompor matematicamente o sinal de erro, o ROSA2 utiliza gradientes textuais para retificar a ambiguidade de intenção e atualizações de parâmetros para colmatar lacunas de capacidade. Teoricamente, provamos que esta co-adaptação reduz estritamente o desvio de parâmetros necessário para a convergência. Empiricamente, o ROSA2 supera os *baselines* state-of-the-art em 30% no conjunto de dados MATH, enquanto reduz os turnos de interação em 40%, demonstrando que refinar o contexto desbloqueia o verdadeiro potencial das atualizações de parâmetros.

English

Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.

Palavras e Pesos: Otimizando Interações Multiturno por meio da Co-adaptação

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

Resumo

Support