ChatPaper.aiChatPaper

단어와 가중치: 공동 적응을 통한 다중 턴 상호작용 간소화

Words & Weights: Streamlining Multi-Turn Interactions via Co-Adaptation

March 2, 2026
저자: Chenxing Wei, Hong Wang, Ying He, Zhongxiang Dai, Bo Jiang, F. Richard Yu, Yao Shu
cs.AI

초록

다중 회차 상호작용을 위한 테스트 타임 정책 적응(T2PAM)은 추론 시간 동안 LLM(Large Language Model)을 변화하는 사용자 요구에 맞추는 데 필수적입니다. 그러나 기존 패러다임들은 테스트 타임 적응을 단일 축 문제, 즉 순수하게 지시문을 개선하거나(Prompt Engineering) 가중치만 조정하는 것(Test-Time Training)으로 흔히 간주하여, 상호작용 실패가 모호성과 부족한 능력이 결합된 데서 비롯된다는 점을 간과해 왔습니다. 우리는 이 두 최적화 경로가 단순히 추가적인 것이 아니라 시너지 효과를 낸다고 주장합니다. 즉, 의미론적 명료성이 효과적인 매개변수 업데이트의 사전 조건 역할을 합니다. 이를 위해 우리는 Words(단어)와 Weights(가중치)라는 이종 공간에서 상호작용을 공동 최적화 문제로 재정의하는 ROSA2 프레임워크를 제안합니다. 오류 신호를 수학적으로 분해함으로써, ROSA2는 텍스트 기울기(textual gradient)를 활용하여 의도 모호성을 수정하고 매개변수 업데이트를 통해 능력 격차를 해소합니다. 이론적으로, 우리는 이러한 공동 적응이 수렴에 필요한 매개변수 변화량을 엄격하게 줄인다는 것을 증명합니다. 실험적으로, ROSA2는 MATH 벤치마크에서 최신 기준선 대비 30% 성능 향상을 보였으며 상호작용 회차를 40% 줄여, 맥락을 정제하는 것이 매개변수 업데이트의 진정한 잠재력을 발휘하게 함을 입증했습니다.
English
Test-time policy adaptation for multi-turn interactions (T2PAM) is essential for aligning Large Language Models (LLMs) with dynamic user needs during inference time. However, existing paradigms commonly treat test-time adaptation as a single-axis problem, either purely refining instructions (Prompt Engineering) or only adjusting weights (Test-Time Training), ignoring that interaction failures stem from a coupled mix of ambiguity and incapacity. We argue that these two optimization paths are not merely additive but synergistic: semantic clarity acts as a pre-conditioner for effective parameter updates. To this end, we propose ROSA2, a framework that reformulates interaction as a joint optimization problem over the heterogeneous space of Words and Weights. By mathematically decomposing the error signal, ROSA2 utilizes textual gradients to rectify intent ambiguity and parameter updates to bridge capability gaps. Theoretically, we prove that this co-adaptation strictly reduces the required parameter shift for convergence. Empirically, ROSA2 outperforms state-of-the-art baselines by 30% on MATH while reducing interaction turns by 40%, demonstrating that refining the context unlocks the true potential of parameter updates.
PDF12May 8, 2026