대화형 받아쓰기 기술을 향하여
Toward Interactive Dictation
July 8, 2023
저자: Belinda Z. Li, Jason Eisner, Adam Pauls, Sam Thomson
cs.AI
초록
음성 받아쓰기는 점점 더 중요한 텍스트 입력 방식으로 자리 잡고 있습니다. 기존의 받아쓰기와 음성 편집을 모두 지원하는 시스템은 트리거 단어로 호출되는 단순한 템플릿 형태의 명령어만을 허용합니다. 본 연구에서는 사용자가 받아쓰기를 하다가도 자연스러운 자연어 형태의 편집 명령을 중간에 삽입할 수 있는 가능성을 탐구합니다. 이를 위해 새로운 작업과 데이터셋인 TERTiUS를 소개하고, 이러한 시스템을 실험합니다. 이러한 유연성을 실시간으로 지원하기 위해서는 시스템이 음성을 받아쓰기와 명령어로 구분하여 분할하고, 명령어로 분류된 부분을 해석해야 합니다. 우리는 대규모 사전 학습 언어 모델을 사용하여 편집된 텍스트를 예측하거나, 또는 작은 텍스트 편집 프로그램을 예측하는 실험을 진행했습니다. 실험 결과, 모델 정확도와 지연 시간 사이에 자연스러운 트레이드오프가 있음을 확인했습니다: 작은 모델은 1.3초의 지연 시간으로 30%의 최종 상태 정확도를 달성한 반면, 더 큰 모델은 7초의 지연 시간으로 55%의 최종 상태 정확도를 달성했습니다.
English
Voice dictation is an increasingly important text input modality. Existing
systems that allow both dictation and editing-by-voice restrict their command
language to flat templates invoked by trigger words. In this work, we study the
feasibility of allowing users to interrupt their dictation with spoken editing
commands in open-ended natural language. We introduce a new task and dataset,
TERTiUS, to experiment with such systems. To support this flexibility in
real-time, a system must incrementally segment and classify spans of speech as
either dictation or command, and interpret the spans that are commands. We
experiment with using large pre-trained language models to predict the edited
text, or alternatively, to predict a small text-editing program. Experiments
show a natural trade-off between model accuracy and latency: a smaller model
achieves 30% end-state accuracy with 1.3 seconds of latency, while a larger
model achieves 55% end-state accuracy with 7 seconds of latency.