ChatPaper.aiChatPaper

Você Entende o Que Eu Quero Dizer? Quantificando a Lacuna entre Instrução e Percepção em Sistemas de Conversão de Texto em Fala Expressiva Guiados por Instruções

Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

September 17, 2025
Autores: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI

Resumo

A síntese de fala guiada por instruções (ITTS, do inglês Instruction-guided Text-to-Speech) permite que os usuários controlem a geração de fala por meio de prompts em linguagem natural, oferecendo uma interface mais intuitiva do que os sistemas tradicionais de TTS. No entanto, o alinhamento entre as instruções de estilo do usuário e a percepção do ouvinte ainda é amplamente inexplorado. Este trabalho apresenta, em primeiro lugar, uma análise perceptiva da controlabilidade do ITTS em duas dimensões expressivas (advérbios de grau e intensidade emocional graduada) e coleta avaliações humanas sobre atributos como idade do falante e ênfase em nível de palavra. Para revelar de forma abrangente a lacuna entre instrução e percepção, fornecemos uma coleta de dados com avaliações humanas em larga escala, denominada corpus Expressive VOice Control (E-VOC). Além disso, revelamos que (1) o modelo gpt-4o-mini-tts é o mais confiável entre os sistemas ITTS, com um excelente alinhamento entre instruções e enunciados gerados em dimensões acústicas. (2) Os 5 sistemas ITTS analisados tendem a gerar vozes de adultos, mesmo quando as instruções solicitam o uso de vozes infantis ou de idosos. (3) O controle refinado continua sendo um grande desafio, indicando que a maioria dos sistemas ITTS tem um espaço significativo para melhorias na interpretação de instruções com atributos ligeiramente diferentes.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech generation through natural language prompts, offering a more intuitive interface than traditional TTS. However, the alignment between user style instructions and listener perception remains largely unexplored. This work first presents a perceptual analysis of ITTS controllability across two expressive dimensions (adverbs of degree and graded emotion intensity) and collects human ratings on speaker age and word-level emphasis attributes. To comprehensively reveal the instruction-perception gap, we provide a data collection with large-scale human evaluations, named Expressive VOice Control (E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most reliable ITTS model with great alignment between instruction and generated utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to generate Adult voices even when the instructions ask to use child or Elderly voices. (3) Fine-grained control remains a major challenge, indicating that most ITTS systems have substantial room for improvement in interpreting slightly different attribute instructions.
PDF32September 22, 2025