Efficiënte Agent-evaluatie via Diversiteit-gestuurde Gebruikerssimulatie

Samenvatting

Grootschalige taalmodelen (LLM's) worden steeds vaker ingezet als klantgerichte agents, maar het evalueren van hun betrouwbaarheid blijft een uitdaging vanwege de stochastische, multi-turn interacties. Huidige evaluatieprotocollen baseren zich op lineaire Monte Carlo-rollouts van volledige agent-gebruiker gesprekken om de succeskans te schatten. Deze aanpak is echter computationeel inefficiënt, omdat identieke vroege gespreksprefixen herhaaldelijk worden gegenereerd, en slaagt er vaak niet in diepe foutmodi bloot te leggen die ontstaan door zeldzaam gebruikersgedrag. Wij introduceren DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), een efficiënt, op snapshots gebaseerd, coverage-gestuurd gebruikerssimulatiekader voor de systematische verkenning van agent-gebruiker interacties. DIVERT legt de volledige agent-omgevingstoestand vast op kritieke beslispunten en hervat de uitvoering vanaf deze snapshots. Dit maakt hergebruik van gedeelde gespreksprefixen mogelijk en vermindert redundante berekeningen. Vanaf elk kruispunt vertakt het kader zich met behulp van gerichte, diversiteit-inducerende gebruikersreacties, wat gerichte verkenning van alternatieve interactiepaden toelaat. Door de evaluatie te richten op semantisch diverse en onderbelichte trajecten, verbetert DIVERT zowel de efficiëntie als de dekking. Empirische resultaten tonen aan dat het meer fouten ontdekt per token in vergelijking met standaard lineaire rollout-protocollen, terwijl het de set taken waarop fouten worden geïdentificeerd, uitbreidt.

English

Large language models (LLMs) are increasingly deployed as customer-facing agents, yet evaluating their reliability remains challenging due to stochastic, multi-turn interactions. Current evaluation protocols rely on linear Monte Carlo rollouts of complete agent-user conversations to estimate success. However, this approach is computationally inefficient, repeatedly regenerating identical early prefixes, and often fails to uncover deep failure modes that arise from rare user behaviors. We introduce DIVERT (Diversity-Induced Evaluation via Branching of Trajectories), an efficient, snapshot-based, coverage-guided user simulation framework for systematic exploration of agent-user interactions. DIVERT captures the full agent-environment state at critical decision points and resumes execution from these snapshots, enabling reuse of shared conversation prefixes and reducing redundant computation. From each junction, the framework branches using targeted, diversity-inducing user responses, allowing directed exploration of alternative interaction paths. By focusing evaluation on semantically diverse and underexplored trajectories, DIVERT improves both efficiency and coverage. Empirical results show that it discovers more failures per token compared to standard linear rollout protocols, while expanding the set of tasks on which failures are identified.

Efficiënte Agent-evaluatie via Diversiteit-gestuurde Gebruikerssimulatie

Efficient Agent Evaluation via Diversity-Guided User Simulation

Samenvatting

Support