Rambler : Soutien à l'écriture par la parole via la manipulation de l'essentiel assistée par un LLM
Rambler: Supporting Writing With Speech via LLM-Assisted Gist Manipulation
January 19, 2024
Auteurs: Susan Lin, Jeremy Warner, J. D. Zamfirescu-Pereira, Matthew G. Lee, Sauhard Jain, Michael Xuelin Huang, Piyawat Lertvittayakumjorn, Shanqing Cai, Shumin Zhai, Björn Hartmann, Can Liu
cs.AI
Résumé
La dictée permet une saisie de texte efficace sur les appareils mobiles. Cependant, écrire avec la parole peut produire un texte hésitant, verbeux et incohérent, nécessitant ainsi un post-traitement important. Cet article présente Rambler, une interface graphique pilotée par un modèle de langage (LLM) qui permet une manipulation au niveau de l'essence du texte dicté grâce à deux ensembles de fonctions principales : l'extraction de l'essence et la révision macro. L'extraction de l'essence génère des mots-clés et des résumés servant de points d'ancrage pour faciliter la révision et l'interaction avec le texte parlé. Les révisions macro assistées par LLM permettent aux utilisateurs de redicter, diviser, fusionner et transformer le texte dicté sans avoir à spécifier des emplacements de modification précis. Ensemble, ces fonctionnalités ouvrent la voie à une dictée et une révision interactives qui aident à combler les écarts entre les mots parlés spontanés et un écrit bien structuré. Dans une étude comparative impliquant 12 participants effectuant des tâches de composition verbale, Rambler a surpassé la référence d'un éditeur de reconnaissance vocale + ChatGPT, car il facilite mieux les révisions itératives avec un contrôle utilisateur accru sur le contenu tout en soutenant des stratégies utilisateurs étonnamment variées.
English
Dictation enables efficient text input on mobile devices. However, writing
with speech can produce disfluent, wordy, and incoherent text and thus requires
heavy post-processing. This paper presents Rambler, an LLM-powered graphical
user interface that supports gist-level manipulation of dictated text with two
main sets of functions: gist extraction and macro revision. Gist extraction
generates keywords and summaries as anchors to support the review and
interaction with spoken text. LLM-assisted macro revisions allow users to
respeak, split, merge and transform dictated text without specifying precise
editing locations. Together they pave the way for interactive dictation and
revision that help close gaps between spontaneous spoken words and
well-structured writing. In a comparative study with 12 participants performing
verbal composition tasks, Rambler outperformed the baseline of a speech-to-text
editor + ChatGPT, as it better facilitates iterative revisions with enhanced
user control over the content while supporting surprisingly diverse user
strategies.