Слова и веса: оптимизация многократных взаимодействий через ко-адаптацию
Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation
March 2, 2026
Авторы: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu
cs.AI
Аннотация
Адаптация политики во время тестирования для многошаговых взаимодействий (T2PAM) крайне важна для согласования больших языковых моделей (LLM) с динамическими потребностями пользователей на этапе вывода. Однако существующие парадигмы обычно рассматривают адаптацию во время тестирования как одномерную проблему, либо чисто уточняя инструкции (инженерия промптов), либо только корректируя веса (обучение во время тестирования), игнорируя тот факт, что сбои взаимодействия проистекают из связанной смеси неоднозначности и неспособности. Мы утверждаем, что эти два пути оптимизации не просто аддитивны, а синергетичны: семантическая ясность выступает в роли предобуславливателя для эффективного обновления параметров. Для решения этой задачи мы предлагаем ROSA2 — фреймворк, который переформулирует взаимодействие как задачу совместной оптимизации в гетерогенном пространстве Слов и Весов. Математически разлагая сигнал ошибки, ROSA2 использует текстовые градиенты для исправления неоднозначности намерений и обновления параметров для преодоления пробелов в возможностях. Теоретически мы доказываем, что такая совместная адаптация строго сокращает необходимый сдвиг параметров для сходимости. Экспериментально ROSA2 превосходит современные базовые методы на 30% на наборе данных MATH, одновременно сокращая количество шагов взаимодействия на 40%, что демонстрирует, что уточнение контекста раскрывает истинный потенциал обновления параметров.
English
Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.