Riesci a Capire Cosa Intendo? Quantificare il Divario Istruzione-Percezione nei Sistemi di Sintesi Vocale Espressiva Guidati da Istruzioni
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
September 17, 2025
Autori: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI
Abstract
Il text-to-speech guidato da istruzioni (ITTS) consente agli utenti di controllare la generazione del parlato attraverso prompt in linguaggio naturale, offrendo un'interfaccia più intuitiva rispetto al tradizionale TTS. Tuttavia, l'allineamento tra le istruzioni sullo stile dell'utente e la percezione dell'ascoltatore rimane in gran parte inesplorato. Questo lavoro presenta innanzitutto un'analisi percettiva della controllabilità dell'ITTS su due dimensioni espressive (avverbi di grado e intensità emotiva graduata) e raccoglie valutazioni umane sugli attributi dell'età del parlante e dell'enfasi a livello di parola. Per rivelare in modo completo il divario tra istruzione e percezione, forniamo una raccolta di dati con valutazioni umane su larga scala, denominata corpus Expressive VOice Control (E-VOC). Inoltre, riveliamo che (1) gpt-4o-mini-tts è il modello ITTS più affidabile, con un ottimo allineamento tra istruzione e enunciati generati attraverso dimensioni acustiche. (2) I 5 sistemi ITTS analizzati tendono a generare voci adulte anche quando le istruzioni richiedono di utilizzare voci di bambini o anziani. (3) Il controllo fine rimane una sfida importante, indicando che la maggior parte dei sistemi ITTS ha un ampio margine di miglioramento nell'interpretazione di istruzioni sugli attributi leggermente diverse.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech
generation through natural language prompts, offering a more intuitive
interface than traditional TTS. However, the alignment between user style
instructions and listener perception remains largely unexplored. This work
first presents a perceptual analysis of ITTS controllability across two
expressive dimensions (adverbs of degree and graded emotion intensity) and
collects human ratings on speaker age and word-level emphasis attributes. To
comprehensively reveal the instruction-perception gap, we provide a data
collection with large-scale human evaluations, named Expressive VOice Control
(E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most
reliable ITTS model with great alignment between instruction and generated
utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to
generate Adult voices even when the instructions ask to use child or Elderly
voices. (3) Fine-grained control remains a major challenge, indicating that
most ITTS systems have substantial room for improvement in interpreting
slightly different attribute instructions.