S2S-Arena: Avaliação de Protocolos Speech2Speech no Seguimento de Instruções com Informação Paralinguística
S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information
March 7, 2025
Autores: Feng Jiang, Zhiyu Lin, Fan Bu, Yuhao Du, Benyou Wang, Haizhou Li
cs.AI
Resumo
O rápido desenvolvimento de grandes modelos de linguagem (LLMs) tem atraído atenção significativa para modelos de fala, especialmente os recentes avanços em protocolos de fala2fala que suportam entrada e saída de fala. No entanto, os benchmarks existentes adotam avaliadores automáticos baseados em texto para avaliar a capacidade de seguir instruções desses modelos, mas não consideram adequadamente as informações paralinguísticas tanto na compreensão quanto na geração de fala. Para abordar essas questões, introduzimos o S2S-Arena, um novo benchmark de fala2fala no estilo arena que avalia as capacidades de seguir instruções com informações paralinguísticas tanto na entrada quanto na saída de fala em tarefas do mundo real. Projetamos 154 amostras que combinam síntese de fala (TTS) e gravações ao vivo em quatro domínios com 21 tarefas e avaliamos manualmente modelos de fala populares existentes de maneira estilo arena. Os resultados experimentais mostram que: (1) além do desempenho superior do GPT-4o, o modelo de fala em cascata com ASR, LLM e TTS supera o modelo treinado conjuntamente após o alinhamento texto-fala em protocolos de fala2fala; (2) considerando as informações paralinguísticas, a capacidade de conhecimento do modelo de fala depende principalmente do backbone LLM, e o suporte multilíngue é limitado pelo módulo de fala; (3) modelos de fala excelentes já conseguem entender as informações paralinguísticas na entrada de fala, mas gerar áudio apropriado com informações paralinguísticas ainda é um desafio.
English
The rapid development of large language models (LLMs) has brought significant
attention to speech models, particularly recent progress in speech2speech
protocols supporting speech input and output. However, the existing benchmarks
adopt automatic text-based evaluators for evaluating the instruction following
ability of these models lack consideration for paralinguistic information in
both speech understanding and generation. To address these issues, we introduce
S2S-Arena, a novel arena-style S2S benchmark that evaluates
instruction-following capabilities with paralinguistic information in both
speech-in and speech-out across real-world tasks. We design 154 samples that
fused TTS and live recordings in four domains with 21 tasks and manually
evaluate existing popular speech models in an arena-style manner. The
experimental results show that: (1) in addition to the superior performance of
GPT-4o, the speech model of cascaded ASR, LLM, and TTS outperforms the jointly
trained model after text-speech alignment in speech2speech protocols; (2)
considering paralinguistic information, the knowledgeability of the speech
model mainly depends on the LLM backbone, and the multilingual support of that
is limited by the speech module; (3) excellent speech models can already
understand the paralinguistic information in speech input, but generating
appropriate audio with paralinguistic information is still a challenge.Summary
AI-Generated Summary