Avaliação Eficiente de Agentes por meio de Simulação de Utilizadores Orientada pela Diversidade

Resumo

Os modelos de linguagem de grande escala (LLMs) estão cada vez mais a ser implementados como agentes de atendimento ao cliente, mas a avaliação da sua fiabilidade continua a ser um desafio devido à natureza estocástica das interações multi-turnos. Os protocolos de avaliação atuais baseiam-se em rollouts de Monte Carlo lineares de conversas completas entre agente e utilizador para estimar o sucesso. No entanto, esta abordagem é computacionalmente ineficiente, pois regenera repetidamente prefixos iniciais idênticos, e frequentemente não consegue detetar modos de falha profundos que surgem de comportamentos raros do utilizador. Apresentamos o DIVERT (Avaliação Induzida por Diversidade via Ramificação de Trajetórias), um quadro de simulação de utilizador eficiente, baseado em snapshots e orientado para a cobertura, para a exploração sistemática de interações agente-utilizador. O DIVERT captura o estado completo do agente-ambiente em pontos de decisão críticos e retoma a execução a partir desses snapshots, permitindo a reutilização de prefixos de conversa partilhados e reduzindo a computação redundante. A partir de cada junção, o quadro ramifica-se utilizando respostas do utilizador direcionadas e indutoras de diversidade, permitindo a exploração dirigida de caminhos de interação alternativos. Ao concentrar a avaliação em trajetórias semanticamente diversas e subexploradas, o DIVERT melhora tanto a eficiência como a cobertura. Resultados empíricos mostram que ele descobre mais falhas por token em comparação com os protocolos padrão de rollout linear, ao mesmo tempo que expande o conjunto de tarefas nas quais as falhas são identificadas.

English

Large language models (LLMs) are increasingly deployed as customer-facing agents, yet evaluating their reliability remains challenging due to stochastic, multi-turn interactions. Current evaluation protocols rely on linear Monte Carlo rollouts of complete agent-user conversations to estimate success. However, this approach is computationally inefficient, repeatedly regenerating identical early prefixes, and often fails to uncover deep failure modes that arise from rare user behaviors. We introduce DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), an efficient, snapshot-based, coverage-guided user simulation framework for systematic exploration of agent-user interactions. DIVERT captures the full agent-environment state at critical decision points and resumes execution from these snapshots, enabling reuse of shared conversation prefixes and reducing redundant computation. From each junction, the framework branches using targeted, diversity-inducing user responses, allowing directed exploration of alternative interaction paths. By focusing evaluation on semantically diverse and underexplored trajectories, DIVERT improves both efficiency and coverage. Empirical results show that it discovers more failures per token compared to standard linear rollout protocols, while expanding the set of tasks on which failures are identified.

Avaliação Eficiente de Agentes por meio de Simulação de Utilizadores Orientada pela Diversidade

Efficient Agent Evaluation via Diversity-Guided User Simulation

Resumo

Support