내 말이 들리나요? 지시어 기반 표현적 텍스트-음성 변환 시스템에서의 지시-인지 간극 측정
Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems
September 17, 2025
저자: Yi-Cheng Lin, Huang-Cheng Chou, Tzu-Chieh Wei, Kuan-Yu Chen, Hung-yi Lee
cs.AI
초록
지시어 기반 텍스트-음성 변환(ITTS)은 사용자가 자연어 프롬프트를 통해 음성 생성을 제어할 수 있게 하여 기존 TTS보다 더 직관적인 인터페이스를 제공합니다. 그러나 사용자 스타일 지시와 청자 인식 간의 정렬은 여전히 크게 탐구되지 않은 상태입니다. 본 연구는 먼저 두 가지 표현적 차원(정도 부사와 등급화된 감정 강도)에 걸친 ITTS 제어 가능성에 대한 인지적 분석을 제시하고, 화자 연령과 단어 수준 강조 속성에 대한 인간 평가를 수집합니다. 지시어-인식 간격을 포괄적으로 밝히기 위해, 우리는 대규모 인간 평가를 포함한 데이터 수집인 Expressive VOice Control(E-VOC) 코퍼스를 제공합니다. 더 나아가, 우리는 (1) gpt-4o-mini-tts가 음향적 차원에서 지시어와 생성된 발화 간의 훌륭한 정렬을 보이는 가장 신뢰할 수 있는 ITTS 모델임을 밝혔습니다. (2) 분석된 5개의 ITTS 시스템은 지시어가 아동이나 노인 목소리를 요구할 때에도 성인 목소리를 생성하는 경향이 있습니다. (3) 세밀한 제어는 여전히 주요 과제로, 대부분의 ITTS 시스템이 약간 다른 속성 지시어를 해석하는 데 있어 상당한 개선의 여지가 있음을 나타냅니다.
English
Instruction-guided text-to-speech (ITTS) enables users to control speech
generation through natural language prompts, offering a more intuitive
interface than traditional TTS. However, the alignment between user style
instructions and listener perception remains largely unexplored. This work
first presents a perceptual analysis of ITTS controllability across two
expressive dimensions (adverbs of degree and graded emotion intensity) and
collects human ratings on speaker age and word-level emphasis attributes. To
comprehensively reveal the instruction-perception gap, we provide a data
collection with large-scale human evaluations, named Expressive VOice Control
(E-VOC) corpus. Furthermore, we reveal that (1) gpt-4o-mini-tts is the most
reliable ITTS model with great alignment between instruction and generated
utterances across acoustic dimensions. (2) The 5 analyzed ITTS systems tend to
generate Adult voices even when the instructions ask to use child or Elderly
voices. (3) Fine-grained control remains a major challenge, indicating that
most ITTS systems have substantial room for improvement in interpreting
slightly different attribute instructions.