Rambler: Unterstützung des Schreibens durch Sprache mittels LLM-gestützter Kernaussagen-Manipulation
Rambler: Supporting Writing With Speech via LLM-Assisted Gist Manipulation
January 19, 2024
Autoren: Susan Lin, Jeremy Warner, J. D. Zamfirescu-Pereira, Matthew G. Lee, Sauhard Jain, Michael Xuelin Huang, Piyawat Lertvittayakumjorn, Shanqing Cai, Shumin Zhai, Björn Hartmann, Can Liu
cs.AI
Zusammenfassung
Diktate ermöglichen eine effiziente Texteingabe auf mobilen Geräten. Das Schreiben mit Sprache kann jedoch unflüssige, weitschweifige und inkohärente Texte erzeugen und erfordert daher eine umfangreiche Nachbearbeitung. Dieses Papier stellt Rambler vor, eine grafische Benutzeroberfläche, die von einem großen Sprachmodell (LLM) unterstützt wird und die manipulation von diktiertem Text auf einer inhaltlichen Ebene mit zwei Hauptfunktionsgruppen ermöglicht: Inhaltsextraktion und Makrorevision. Die Inhaltsextraktion generiert Schlüsselwörter und Zusammenfassungen als Ankerpunkte, um die Überprüfung und Interaktion mit gesprochenem Text zu unterstützen. LLM-gestützte Makrorevisionen ermöglichen es Benutzern, diktierten Text neu zu sprechen, zu teilen, zusammenzuführen und zu transformieren, ohne präzise Bearbeitungsstellen angeben zu müssen. Zusammen ebnen sie den Weg für interaktives Diktieren und Überarbeiten, das dabei hilft, die Lücke zwischen spontan gesprochenen Worten und gut strukturiertem Schreiben zu schließen. In einer vergleichenden Studie mit 12 Teilnehmern, die verbale Kompositionsaufgaben durchführten, übertraf Rambler die Baseline eines Spracherkennungseditors + ChatGPT, da es iterative Überarbeitungen besser unterstützt, indem es eine verbesserte Benutzerkontrolle über den Inhalt bietet und gleichzeitig überraschend vielfältige Benutzerstrategien ermöglicht.
English
Dictation enables efficient text input on mobile devices. However, writing
with speech can produce disfluent, wordy, and incoherent text and thus requires
heavy post-processing. This paper presents Rambler, an LLM-powered graphical
user interface that supports gist-level manipulation of dictated text with two
main sets of functions: gist extraction and macro revision. Gist extraction
generates keywords and summaries as anchors to support the review and
interaction with spoken text. LLM-assisted macro revisions allow users to
respeak, split, merge and transform dictated text without specifying precise
editing locations. Together they pave the way for interactive dictation and
revision that help close gaps between spontaneous spoken words and
well-structured writing. In a comparative study with 12 participants performing
verbal composition tasks, Rambler outperformed the baseline of a speech-to-text
editor + ChatGPT, as it better facilitates iterative revisions with enhanced
user control over the content while supporting surprisingly diverse user
strategies.