Entendez-vous ce que je veux dire ? Quantifier l'écart entre instruction et perception dans les systèmes de synthèse vocale expressive guidés par instructions
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
September 17, 2025
papers.authors: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI
papers.abstract
La synthèse vocale guidée par instructions (ITTS) permet aux utilisateurs de contrôler la génération de parole via des invites en langage naturel, offrant une interface plus intuitive que les systèmes TTS traditionnels. Cependant, l'alignement entre les instructions de style de l'utilisateur et la perception de l'auditeur reste largement inexploré. Ce travail présente d'abord une analyse perceptive de la contrôlabilité de l'ITTS à travers deux dimensions expressives (adverbes de degré et intensité émotionnelle graduée) et collecte des évaluations humaines sur l'âge du locuteur et les attributs d'emphase au niveau des mots. Pour révéler de manière exhaustive l'écart entre instruction et perception, nous proposons une collecte de données avec des évaluations humaines à grande échelle, nommée corpus Expressive VOice Control (E-VOC). De plus, nous montrons que (1) gpt-4o-mini-tts est le modèle ITTS le plus fiable, avec un excellent alignement entre les instructions et les énoncés générés à travers les dimensions acoustiques. (2) Les 5 systèmes ITTS analysés ont tendance à générer des voix d'adultes même lorsque les instructions demandent des voix d'enfant ou de personnes âgées. (3) Le contrôle fin reste un défi majeur, indiquant que la plupart des systèmes ITTS ont une marge d'amélioration substantielle dans l'interprétation des instructions d'attributs légèrement différentes.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech
generation through natural language prompts, offering a more intuitive
interface than traditional TTS. However, the alignment between user style
instructions and listener perception remains largely unexplored. This work
first presents a perceptual analysis of ITTS controllability across two
expressive dimensions (adverbs of degree and graded emotion intensity) and
collects human ratings on speaker age and word-level emphasis attributes. To
comprehensively reveal the instruction-perception gap, we provide a data
collection with large-scale human evaluations, named Expressive VOice Control
(E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most
reliable ITTS model with great alignment between instruction and generated
utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to
generate Adult voices even when the instructions ask to use child or Elderly
voices. (3) Fine-grained control remains a major challenge, indicating that
most ITTS systems have substantial room for improvement in interpreting
slightly different attribute instructions.