Valutazione Efficiente degli Agenti tramite Simulazione Utente Guidata dalla Diversità
Efficient Agent Evaluation via Diversity-Guided User Simulation
April 23, 2026
Autori: Itay Nakash, George Kour, Ateret Anaby-Tavor
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più spesso impiegati come agenti a diretto contatto con i clienti, eppure la valutazione della loro affidabilità rimane complessa a causa delle interazioni stocastiche e multi-turno. I protocolli di valutazione attuali si basano su rollout Monte Carlo lineari di conversazioni complete tra agente e utente per stimare il successo. Tuttavia, questo approccio è computazionalmente inefficiente, poiché rigenera ripetutamente i medesimi prefissi iniziali, e spesso non riesce a scoprire modalità di fallimento profonde che emergono da comportamenti utente rari.
Introduciamo DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), un framework efficiente, basato su snapshot e guidato dalla copertura, per la simulazione sistematica delle interazioni agente-utente. DIVERT cattura lo stato completo agente-ambiente in punti decisionali critici e riprende l'esecuzione da questi snapshot, consentendo il riutilizzo di prefissi conversazionali condivisi e riducendo il calcolo ridondante. Da ogni giunzione, il framework dirama l'esplorazione utilizzando risposte utente mirate e induttrici di diversità, permettendo l'esplorazione diretta di percorsi interattivi alternativi.
Concentrando la valutazione su traiettorie semanticamente diverse e poco esplorate, DIVERT migliora sia l'efficienza che la copertura. I risultati empirici dimostrano che, rispetto ai protocolli standard di rollout lineare, esso scopre più fallimenti per token, ampliando al contempo l'insieme di compiti in cui i fallimenti vengono identificati.
English
Large language models (LLMs) are increasingly deployed as customer-facing agents, yet evaluating their reliability remains challenging due to stochastic, multi-turn interactions. Current evaluation protocols rely on linear Monte Carlo rollouts of complete agent-user conversations to estimate success. However, this approach is computationally inefficient, repeatedly regenerating identical early prefixes, and often fails to uncover deep failure modes that arise from rare user behaviors.
We introduce DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), an efficient, snapshot-based, coverage-guided user simulation framework for systematic exploration of agent-user interactions. DIVERT captures the full agent-environment state at critical decision points and resumes execution from these snapshots, enabling reuse of shared conversation prefixes and reducing redundant computation. From each junction, the framework branches using targeted, diversity-inducing user responses, allowing directed exploration of alternative interaction paths.
By focusing evaluation on semantically diverse and underexplored trajectories, DIVERT improves both efficiency and coverage. Empirical results show that it discovers more failures per token compared to standard linear rollout protocols, while expanding the set of tasks on which failures are identified.