Hoor Je Wat Ik Bedoel? Het Kwantificeren van de Instructie-Waarnemingskloof in Instructie-Gestuurde Expressieve Tekst-Naar-Spraak Systemen

Samenvatting

Instructie-gestuurde tekst-naar-spraak (ITTS) stelt gebruikers in staat om spraakgeneratie te controleren via natuurlijke taalprompts, wat een intuïtievere interface biedt dan traditionele TTS. Echter, de afstemming tussen gebruikersstijlinstructies en luisteraarperceptie blijft grotendeels onontgonnen. Dit werk presenteert eerst een perceptuele analyse van ITTS-bestuurbaarheid over twee expressieve dimensies (bijwoorden van graad en gegradeerde emotie-intensiteit) en verzamelt menselijke beoordelingen over sprekersleeftijd en woordniveau-emphasiskenmerken. Om de instructie-perceptiekloof grondig te onthullen, bieden we een datacollectie met grootschalige menselijke evaluaties, genaamd het Expressive VOice Control (E-VOC) corpus. Verder onthullen we dat (1) gpt-4o-mini-tts het meest betrouwbare ITTS-model is met een grote afstemming tussen instructie en gegenereerde uitingen over akoestische dimensies. (2) De 5 geanalyseerde ITTS-systemen hebben de neiging om volwassen stemmen te genereren, zelfs wanneer de instructies vragen om kind- of ouderenstemmen te gebruiken. (3) Fijnmazige controle blijft een grote uitdaging, wat aangeeft dat de meeste ITTS-systemen aanzienlijke ruimte voor verbetering hebben in het interpreteren van licht verschillende attribuutinstructies.

English

Instruction-guided text-to-speech (ITTS) enables users to control speech generation through natural language prompts, offering a more intuitive interface than traditional TTS. However, the alignment between user style instructions and listener perception remains largely unexplored. This work first presents a perceptual analysis of ITTS controllability across two expressive dimensions (adverbs of degree and graded emotion intensity) and collects human ratings on speaker age and word-level emphasis attributes. To comprehensively reveal the instruction-perception gap, we provide a data collection with large-scale human evaluations, named Expressive VOice Control (E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most reliable ITTS model with great alignment between instruction and generated utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to generate Adult voices even when the instructions ask to use child or Elderly voices. (3) Fine-grained control remains a major challenge, indicating that most ITTS systems have substantial room for improvement in interpreting slightly different attribute instructions.

Hoor Je Wat Ik Bedoel? Het Kwantificeren van de Instructie-Waarnemingskloof in Instructie-Gestuurde Expressieve Tekst-Naar-Spraak Systemen

Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

Samenvatting

Support