Palabras y Pesos: Optimización de Interacciones Multiturno mediante Co-adaptación
Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation
March 2, 2026
Autores: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu
cs.AI
Resumen
La adaptación de políticas en tiempo de prueba para interacciones multiturno (T2PAM) es esencial para alinear los Modelos de Lenguaje Grandes (LLM) con las necesidades dinámicas del usuario durante el tiempo de inferencia. Sin embargo, los paradigmas existentes comúnmente tratan la adaptación en tiempo de prueba como un problema de un solo eje, ya sea refinando únicamente las instrucciones (Ingeniería de Prompt) o ajustando solo los pesos (Entrenamiento en Tiempo de Prueba), ignorando que los fallos de interacción provienen de una mezcla acoplada de ambigüedad e incapacidad. Sostenemos que estas dos vías de optimización no son meramente aditivas, sino sinérgicas: la claridad semántica actúa como un preacondicionador para las actualizaciones efectivas de parámetros. Para ello, proponemos ROSA2, un marco que reformula la interacción como un problema de optimización conjunta sobre el espacio heterogéneo de Palabras y Pesos. Al descomponer matemáticamente la señal de error, ROSA2 utiliza gradientes textuales para rectificar la ambigüedad de la intención y actualizaciones de parámetros para salvar las brechas de capacidad. Teóricamente, demostramos que esta co-adaptación reduce estrictamente el desplazamiento de parámetros requerido para la convergencia. Empíricamente, ROSA2 supera a los métodos de referencia más avanzados en un 30% en MATH mientras reduce los turnos de interacción en un 40%, demostrando que refinar el contexto desbloquea el verdadero potencial de las actualizaciones de parámetros.
English
Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.