Hoor Je Wat Ik Bedoel? Het Kwantificeren van de Instructie-Waarnemingskloof in Instructie-Gestuurde Expressieve Tekst-Naar-Spraak Systemen
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
September 17, 2025
Auteurs: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI
Samenvatting
Instructie-gestuurde tekst-naar-spraak (ITTS) stelt gebruikers in staat om spraakgeneratie te controleren via natuurlijke taalprompts, wat een intuïtievere interface biedt dan traditionele TTS. Echter, de afstemming tussen gebruikersstijlinstructies en luisteraarperceptie blijft grotendeels onontgonnen. Dit werk presenteert eerst een perceptuele analyse van ITTS-bestuurbaarheid over twee expressieve dimensies (bijwoorden van graad en gegradeerde emotie-intensiteit) en verzamelt menselijke beoordelingen over sprekersleeftijd en woordniveau-emphasiskenmerken. Om de instructie-perceptiekloof grondig te onthullen, bieden we een datacollectie met grootschalige menselijke evaluaties, genaamd het Expressive VOice Control (E-VOC) corpus. Verder onthullen we dat (1) gpt-4o-mini-tts het meest betrouwbare ITTS-model is met een grote afstemming tussen instructie en gegenereerde uitingen over akoestische dimensies. (2) De 5 geanalyseerde ITTS-systemen hebben de neiging om volwassen stemmen te genereren, zelfs wanneer de instructies vragen om kind- of ouderenstemmen te gebruiken. (3) Fijnmazige controle blijft een grote uitdaging, wat aangeeft dat de meeste ITTS-systemen aanzienlijke ruimte voor verbetering hebben in het interpreteren van licht verschillende attribuutinstructies.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech
generation through natural language prompts, offering a more intuitive
interface than traditional TTS. However, the alignment between user style
instructions and listener perception remains largely unexplored. This work
first presents a perceptual analysis of ITTS controllability across two
expressive dimensions (adverbs of degree and graded emotion intensity) and
collects human ratings on speaker age and word-level emphasis attributes. To
comprehensively reveal the instruction-perception gap, we provide a data
collection with large-scale human evaluations, named Expressive VOice Control
(E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most
reliable ITTS model with great alignment between instruction and generated
utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to
generate Adult voices even when the instructions ask to use child or Elderly
voices. (3) Fine-grained control remains a major challenge, indicating that
most ITTS systems have substantial room for improvement in interpreting
slightly different attribute instructions.