EVA-Bench: Um Novo Framework Fim a Fim para Avaliação de Agentes de Voz

Resumo

Agentes de voz, sistemas de inteligência artificial que conduzem conversas faladas para completar tarefas, são cada vez mais implantados em aplicações empresariais. No entanto, nenhum benchmark existente aborda conjuntamente dois desafios centrais de avaliação: gerar conversas simuladas realistas e medir a qualidade em todo o espectro de modos de falha específicos da voz. Apresentamos o EVA-Bench, uma estrutura de avaliação ponta a ponta que aborda ambos. No lado da simulação, o EVA-Bench orquestra conversas de áudio entre bots em diálogos dinâmicos de múltiplas rodadas, com validação automática de simulação que detecta erros do simulador de usuário e regenera adequadamente as conversas antes da pontuação. No lado da medição, o EVA-Bench introduz duas métricas compostas: EVA-A (Precisão), capturando conclusão de tarefas, fidelidade e fidelidade da fala em nível de áudio; e EVA-X (Experiência), capturando progressão da conversa, concisão falada e tempo de alternância de turnos. Ambas as métricas se aplicam a diferentes arquiteturas de agentes, permitindo comparação direta entre arquiteturas. O EVA-Bench inclui 213 cenários em três domínios empresariais, um conjunto controlado de perturbações para robustez a sotaques e ruídos, e medições pass@1, pass@k, pass^k que distinguem capacidade de pico de capacidade confiável. Em 12 sistemas abrangendo todas as três arquiteturas, constatamos: (1) nenhum sistema excede simultaneamente 0,5 tanto no EVA-A pass@1 quanto no EVA-X pass@1; (2) o desempenho de pico e confiável divergem substancialmente (diferença mediana pass@k - pass^k de 0,44 no EVA-A); e (3) perturbações de sotaque e ruído expõem lacunas substanciais de robustez, com efeitos variando entre arquiteturas, sistemas e métricas (média de até 0,314). Disponibilizamos a estrutura completa, o conjunto de avaliação e os dados do benchmark sob uma licença de código aberto.

English

Voice agents, artificial intelligence systems that conduct spoken conversations to complete tasks, are increasingly deployed across enterprise applications. However, no existing benchmark jointly addresses two core evaluation challenges: generating realistic simulated conversations, and measuring quality across the full scope of voice-specific failure modes. We present EVA-Bench, an end-to-end evaluation framework that addresses both. On the simulation side, EVA-Bench orchestrates bot-to-bot audio conversations over dynamic multi-turn dialogues, with automatic simulation validation that detects user simulator error and appropriately regenerates conversations before scoring. On the measurement side, EVA-Bench introduces two composite metrics: EVA-A (Accuracy), capturing task completion, faithfulness, and audio-level speech fidelity; and EVA-X (Experience), capturing conversation progression, spoken conciseness, and turn-taking timing. Both metrics apply to different agent architectures, enabling direct cross-architecture comparison. EVA-Bench includes 213 scenarios across three enterprise domains, a controlled perturbation suite for accent and noise robustness, and pass@1, pass@k, pass^k measurements that distinguish peak from reliable capability. Across 12 systems spanning all three architectures, we find: (1) no system simultaneously exceeds 0.5 on both EVA-A pass@1 and EVA-X pass@1; (2) peak and reliable performance diverge substantially (median pass@k - pass^k gap of 0.44 on EVA-A); and (3) accent and noise perturbations expose substantial robustness gaps, with effects varying across architectures, systems, and metrics (mean up to 0.314). We release the full framework, evaluation suite, and benchmark data under an open-source license.