EVA-Bench: Een nieuw end-to-end raamwerk voor het evalueren van stemagenten

Samenvatting

Spraakagenten, kunstmatige-intelligentiesystemen die gesproken gesprekken voeren om taken uit te voeren, worden steeds vaker ingezet in bedrijfstoepassingen. Er bestaat echter geen bestaande benchmark die gelijktijdig twee kernuitdagingen voor evaluatie aanpakt: het genereren van realistische gesimuleerde gesprekken en het meten van kwaliteit over het volledige scala aan stem-specifieke faalvormen. Wij presenteren EVA-Bench, een end-to-end evaluatiekader dat beide aanpakt. Aan de simulatiekant orkestreert EVA-Bench bot-naar-bot audiogesprekken over dynamische meerstapsdialogen, met automatische simulatievalidatie die gebruikerssimulatiefouten detecteert en gesprekken op gepaste wijze opnieuw genereert voordat ze worden gescoord. Aan de meetkant introduceert EVA-Bench twee samengestelde metrieken: EVA-A (Nauwkeurigheid), die taakvoltooiing, getrouwheid en spraakgetrouwheid op audioniveau omvat; en EVA-X (Ervaring), die gespreksvoortgang, gesproken beknoptheid en beurtwisselingstiming omvat. Beide metrieken zijn van toepassing op verschillende agentarchitecturen, wat directe vergelijking tussen architecturen mogelijk maakt. EVA-Bench omvat 213 scenario's in drie bedrijfsdomeinen, een gecontroleerde verstoringssuite voor accent- en ruisrobustheid, en pass@1-, pass@k- en pass^k-metingen die piekprestaties onderscheiden van betrouwbare prestaties. Over 12 systemen die alle drie de architecturen omspannen, vinden we: (1) geen enkel systeem overschrijdt tegelijkertijd 0,5 op zowel EVA-A pass@1 als EVA-X pass@1; (2) piek- en betrouwbare prestaties wijken aanzienlijk af (mediaan verschil pass@k - pass^k van 0,44 op EVA-A); en (3) accent- en ruisverstoringen leggen aanzienlijke robuustheidskloven bloot, met effecten die variëren per architectuur, systeem en metriek (gemiddelde tot 0,314). Wij brengen het volledige kader, de evaluatiesuite en de benchmarkgegevens uit onder een opensourcelicentie.

English

Voice agents, artificial intelligence systems that conduct spoken conversations to complete tasks, are increasingly deployed across enterprise applications. However, no existing benchmark jointly addresses two core evaluation challenges: generating realistic simulated conversations, and measuring quality across the full scope of voice-specific failure modes. We present EVA-Bench, an end-to-end evaluation framework that addresses both. On the simulation side, EVA-Bench orchestrates bot-to-bot audio conversations over dynamic multi-turn dialogues, with automatic simulation validation that detects user simulator error and appropriately regenerates conversations before scoring. On the measurement side, EVA-Bench introduces two composite metrics: EVA-A (Accuracy), capturing task completion, faithfulness, and audio-level speech fidelity; and EVA-X (Experience), capturing conversation progression, spoken conciseness, and turn-taking timing. Both metrics apply to different agent architectures, enabling direct cross-architecture comparison. EVA-Bench includes 213 scenarios across three enterprise domains, a controlled perturbation suite for accent and noise robustness, and pass@1, pass@k, pass^k measurements that distinguish peak from reliable capability. Across 12 systems spanning all three architectures, we find: (1) no system simultaneously exceeds 0.5 on both EVA-A pass@1 and EVA-X pass@1; (2) peak and reliable performance diverge substantially (median pass@k - pass^k gap of 0.44 on EVA-A); and (3) accent and noise perturbations expose substantial robustness gaps, with effects varying across architectures, systems, and metrics (mean up to 0.314). We release the full framework, evaluation suite, and benchmark data under an open-source license.