Rambler: Suporte à Escrita com Fala por meio de Manipulação de Essência Assistida por LLM
Rambler: Supporting Writing With Speech via LLM-Assisted Gist Manipulation
January 19, 2024
Autores: Susan Lin, Jeremy Warner, J. D. Zamfirescu-Pereira, Matthew G. Lee, Sauhard Jain, Michael Xuelin Huang, Piyawat Lertvittayakumjorn, Shanqing Cai, Shumin Zhai, Björn Hartmann, Can Liu
cs.AI
Resumo
A ditação permite uma entrada eficiente de texto em dispositivos móveis. No entanto, escrever com fala pode produzir textos desconexos, prolixos e incoerentes, exigindo, assim, um pesado pós-processamento. Este artigo apresenta o Rambler, uma interface gráfica de usuário alimentada por LLM (Large Language Model) que suporta a manipulação de texto ditado em nível de essência com dois conjuntos principais de funções: extração de essência e revisão macro. A extração de essência gera palavras-chave e resumos como âncoras para apoiar a revisão e a interação com o texto falado. As revisões macro assistidas por LLM permitem que os usuários reditem, dividam, unam e transformem o texto ditado sem especificar locais precisos de edição. Juntas, essas funcionalidades abrem caminho para uma ditação e revisão interativas que ajudam a reduzir as lacunas entre as palavras faladas espontaneamente e a escrita bem estruturada. Em um estudo comparativo com 12 participantes realizando tarefas de composição verbal, o Rambler superou a linha de base de um editor de fala para texto + ChatGPT, pois facilita melhor revisões iterativas com maior controle do usuário sobre o conteúdo, ao mesmo tempo que suporta estratégias de usuário surpreendentemente diversas.
English
Dictation enables efficient text input on mobile devices. However, writing
with speech can produce disfluent, wordy, and incoherent text and thus requires
heavy post-processing. This paper presents Rambler, an LLM-powered graphical
user interface that supports gist-level manipulation of dictated text with two
main sets of functions: gist extraction and macro revision. Gist extraction
generates keywords and summaries as anchors to support the review and
interaction with spoken text. LLM-assisted macro revisions allow users to
respeak, split, merge and transform dictated text without specifying precise
editing locations. Together they pave the way for interactive dictation and
revision that help close gaps between spontaneous spoken words and
well-structured writing. In a comparative study with 12 participants performing
verbal composition tasks, Rambler outperformed the baseline of a speech-to-text
editor + ChatGPT, as it better facilitates iterative revisions with enhanced
user control over the content while supporting surprisingly diverse user
strategies.