¿Escuchas lo que quiero decir? Cuantificando la brecha entre instrucción y percepción en sistemas de conversión de texto a voz expresiva guiados por instrucciones
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
September 17, 2025
Autores: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI
Resumen
La síntesis de voz guiada por instrucciones (ITTS, por sus siglas en inglés) permite a los usuarios controlar la generación de voz mediante indicaciones en lenguaje natural, ofreciendo una interfaz más intuitiva que los sistemas tradicionales de texto a voz (TTS). Sin embargo, la alineación entre las instrucciones de estilo del usuario y la percepción del oyente sigue siendo un área poco explorada. Este trabajo presenta, en primer lugar, un análisis perceptual de la capacidad de control de los sistemas ITTS en dos dimensiones expresivas (adverbios de grado e intensidad emocional graduada) y recopila evaluaciones humanas sobre atributos como la edad del hablante y el énfasis a nivel de palabra. Para revelar de manera exhaustiva la brecha entre las instrucciones y la percepción, proporcionamos una recopilación de datos con evaluaciones humanas a gran escala, denominada corpus Expressive VOice Control (E-VOC). Además, descubrimos que: (1) gpt-4o-mini-tts es el modelo ITTS más confiable, con una gran alineación entre las instrucciones y las expresiones generadas en las dimensiones acústicas. (2) Los 5 sistemas ITTS analizados tienden a generar voces de adultos incluso cuando las instrucciones solicitan voces de niños o personas mayores. (3) El control fino sigue siendo un desafío importante, lo que indica que la mayoría de los sistemas ITTS tienen un margen sustancial de mejora en la interpretación de instrucciones con ligeras variaciones en los atributos.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech
generation through natural language prompts, offering a more intuitive
interface than traditional TTS. However, the alignment between user style
instructions and listener perception remains largely unexplored. This work
first presents a perceptual analysis of ITTS controllability across two
expressive dimensions (adverbs of degree and graded emotion intensity) and
collects human ratings on speaker age and word-level emphasis attributes. To
comprehensively reveal the instruction-perception gap, we provide a data
collection with large-scale human evaluations, named Expressive VOice Control
(E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most
reliable ITTS model with great alignment between instruction and generated
utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to
generate Adult voices even when the instructions ask to use child or Elderly
voices. (3) Fine-grained control remains a major challenge, indicating that
most ITTS systems have substantial room for improvement in interpreting
slightly different attribute instructions.