ChatPaper.aiChatPaper

Hören Sie, was ich meine? Quantifizierung der Instruktions-Wahrnehmungs-Lücke in instruktionsgesteuerten expressiven Text-zu-Sprache-Systemen

Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

September 17, 2025
papers.authors: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI

papers.abstract

Instruktionsgesteuerte Text-zu-Sprache-Systeme (ITTS) ermöglichen es Nutzern, die Sprachgenerierung durch natürliche Sprachbefehle zu steuern, wodurch eine intuitivere Benutzeroberfläche im Vergleich zu traditionellen TTS-Systemen geboten wird. Die Ausrichtung zwischen Nutzerstilanweisungen und der Wahrnehmung durch den Zuhörer ist jedoch weitgehend unerforscht. Diese Arbeit präsentiert zunächst eine perzeptive Analyse der Steuerbarkeit von ITTS über zwei expressive Dimensionen (Adverbien des Grades und abgestufte Emotionsintensität) und sammelt menschliche Bewertungen zu Sprecheralter und wortbezogenen Betonungsattributen. Um die Lücke zwischen Anweisung und Wahrnehmung umfassend aufzuzeigen, stellen wir eine Datensammlung mit groß angelegten menschlichen Bewertungen vor, das sogenannte Expressive VOice Control (E-VOC) Korpus. Darüber hinaus zeigen wir, dass (1) gpt-4o-mini-tts das zuverlässigste ITTS-Modell mit einer guten Übereinstimmung zwischen Anweisung und generierten Äußerungen über akustische Dimensionen hinweg ist. (2) Die fünf analysierten ITTS-Systeme neigen dazu, Erwachsenenstimmen zu erzeugen, selbst wenn die Anweisungen die Verwendung von Kinder- oder Seniorenstimmen vorgeben. (3) Fein abgestufte Kontrolle bleibt eine große Herausforderung, was darauf hindeutet, dass die meisten ITTS-Systeme erheblichen Verbesserungsbedarf bei der Interpretation leicht unterschiedlicher Attributanweisungen haben.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech generation through natural language prompts, offering a more intuitive interface than traditional TTS. However, the alignment between user style instructions and listener perception remains largely unexplored. This work first presents a perceptual analysis of ITTS controllability across two expressive dimensions (adverbs of degree and graded emotion intensity) and collects human ratings on speaker age and word-level emphasis attributes. To comprehensively reveal the instruction-perception gap, we provide a data collection with large-scale human evaluations, named Expressive VOice Control (E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most reliable ITTS model with great alignment between instruction and generated utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to generate Adult voices even when the instructions ask to use child or Elderly voices. (3) Fine-grained control remains a major challenge, indicating that most ITTS systems have substantial room for improvement in interpreting slightly different attribute instructions.
PDF22September 22, 2025