Слышите ли вы, что я имею в виду? Количественная оценка разрыва между инструкцией и восприятием в системах выразительного синтеза речи с управлением по инструкциям
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
September 17, 2025
Авторы: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI
Аннотация
Текст-в-речь с управлением через инструкции (ITTS) позволяет пользователям управлять генерацией речи с помощью подсказок на естественном языке, предлагая более интуитивно понятный интерфейс по сравнению с традиционными системами TTS. Однако соответствие между инструкциями пользователя по стилю и восприятием слушателя остается в значительной степени неисследованным. В данной работе сначала проводится перцептивный анализ управляемости ITTS по двум выразительным измерениям (наречия степени и градация интенсивности эмоций) и собираются человеческие оценки таких атрибутов, как возраст говорящего и акцент на уровне слов. Чтобы всесторонне выявить разрыв между инструкцией и восприятием, мы предоставляем набор данных с масштабными человеческими оценками, названный корпусом Expressive VOice Control (E-VOC). Кроме того, мы выясняем, что (1) модель gpt-4o-mini-tts является наиболее надежной ITTS-системой с высокой степенью соответствия между инструкцией и генерируемыми высказываниями по акустическим измерениям. (2) Проанализированные 5 ITTS-систем склонны генерировать голоса взрослых, даже если инструкции требуют использования детских или старческих голосов. (3) Точное управление остается серьезной проблемой, что указывает на значительный потенциал для улучшения большинства ITTS-систем в интерпретации слегка различающихся инструкций по атрибутам.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech
generation through natural language prompts, offering a more intuitive
interface than traditional TTS. However, the alignment between user style
instructions and listener perception remains largely unexplored. This work
first presents a perceptual analysis of ITTS controllability across two
expressive dimensions (adverbs of degree and graded emotion intensity) and
collects human ratings on speaker age and word-level emphasis attributes. To
comprehensively reveal the instruction-perception gap, we provide a data
collection with large-scale human evaluations, named Expressive VOice Control
(E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most
reliable ITTS model with great alignment between instruction and generated
utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to
generate Adult voices even when the instructions ask to use child or Elderly
voices. (3) Fine-grained control remains a major challenge, indicating that
most ITTS systems have substantial room for improvement in interpreting
slightly different attribute instructions.