ChatPaper.aiChatPaper

Adaptação de Políticas em Tempo de Teste para Melhorar Interações Multi-Turn com LLMs

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

September 27, 2025
Autores: Chenxing Wei, Hong Wang, Ying He, Fei Yu, Yao Shu
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) empregam a interação multi-turno como um paradigma fundamental para a realização de tarefas complexas. No entanto, seu desempenho frequentemente se degrada em interações prolongadas, uma vez que são tipicamente treinados em dados estáticos e de turno único, o que dificulta sua capacidade de se adaptar ao feedback do usuário em tempo real. Para abordar essa limitação, propomos inicialmente um novo paradigma: Adaptação de Política em Tempo de Teste para Interações Multi-Turno (T2PAM), que utiliza o feedback do usuário da interação em andamento como um sinal de recompensa para estimar uma política ótima latente alinhada com as preferências do usuário, em seguida atualiza um pequeno subconjunto de parâmetros para direcionar o modelo em direção a essa política, permitindo, por fim, uma autocorreção eficiente durante a conversação. Em seguida, introduzimos a Adaptação Ótima Referenciada em Um Passo (ROSA), um algoritmo leve que operacionaliza o T2PAM. O ROSA guia os parâmetros do modelo em direção a uma política ótima teórica em uma única etapa de atualização eficiente, evitando a otimização iterativa baseada em gradiente de alto custo e minimizando a sobrecarga computacional. Fornecemos uma análise teórica rigorosa que garante que a política do ROSA converge para a preferência do usuário à medida que o número de interações aumenta. Experimentos extensos em benchmarks desafiadores demonstram que o ROSA alcança melhorias significativas tanto na eficácia quanto na eficiência das tarefas.
English
Large Language Models (LLMs) employ multi-turn interaction as a fundamental paradigm for completing complex tasks. However, their performance often degrades in extended interactions, as they are typically trained on static, single-turn data, which hinders their ability to adapt to real-time user feedback. To address this limitation, we first propose a new paradigm: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), which utilizes user feedback from the ongoing interaction as a reward signal to estimate a latent optimal policy aligned with user preferences, then updates a small subset of parameters to steer the model toward this policy, ultimately enabling efficient in-conversation self-correction. We then introduce Optimum-Referenced One-Step Adaptation (ROSA), a lightweight algorithm that operationalizes T2PAM. ROSA guides the model parameters toward a theoretical optimal policy in a single, efficient update step, avoiding costly iterative gradient-based optimization and minimizing computational overhead. We provide a rigorous theoretical analysis guaranteeing that the policy of ROSA converges to the preference of user as the number of interactions increases. Extensive experiments on challenging benchmark demonstrate that ROSA achieves significant improvements in both task effectiveness and efficiency.
PDF62October 1, 2025