Rambler: Asistencia para la escritura mediante voz a través de la manipulación de ideas clave asistida por LLM
Rambler: Supporting Writing With Speech via LLM-Assisted Gist Manipulation
January 19, 2024
Autores: Susan Lin, Jeremy Warner, J. D. Zamfirescu-Pereira, Matthew G. Lee, Sauhard Jain, Michael Xuelin Huang, Piyawat Lertvittayakumjorn, Shanqing Cai, Shumin Zhai, Björn Hartmann, Can Liu
cs.AI
Resumen
La dictación permite una entrada eficiente de texto en dispositivos móviles. Sin embargo, escribir con voz puede producir textos poco fluidos, verbosos e incoherentes, lo que requiere un postprocesamiento intensivo. Este artículo presenta Rambler, una interfaz gráfica de usuario impulsada por un modelo de lenguaje grande (LLM) que permite la manipulación a nivel de esencia del texto dictado mediante dos conjuntos principales de funciones: extracción de esencia y revisión macro. La extracción de esencia genera palabras clave y resúmenes como anclas para facilitar la revisión e interacción con el texto hablado. Las revisiones macro asistidas por LLM permiten a los usuarios redictar, dividir, fusionar y transformar el texto dictado sin necesidad de especificar ubicaciones precisas de edición. Juntas, estas funciones allanan el camino para una dictación y revisión interactiva que ayuda a cerrar la brecha entre las palabras habladas espontáneas y la escritura bien estructurada. En un estudio comparativo con 12 participantes que realizaron tareas de composición verbal, Rambler superó la línea base de un editor de voz a texto + ChatGPT, ya que facilita mejor las revisiones iterativas con un mayor control del usuario sobre el contenido, al mismo tiempo que admite estrategias de usuario sorprendentemente diversas.
English
Dictation enables efficient text input on mobile devices. However, writing
with speech can produce disfluent, wordy, and incoherent text and thus requires
heavy post-processing. This paper presents Rambler, an LLM-powered graphical
user interface that supports gist-level manipulation of dictated text with two
main sets of functions: gist extraction and macro revision. Gist extraction
generates keywords and summaries as anchors to support the review and
interaction with spoken text. LLM-assisted macro revisions allow users to
respeak, split, merge and transform dictated text without specifying precise
editing locations. Together they pave the way for interactive dictation and
revision that help close gaps between spontaneous spoken words and
well-structured writing. In a comparative study with 12 participants performing
verbal composition tasks, Rambler outperformed the baseline of a speech-to-text
editor + ChatGPT, as it better facilitates iterative revisions with enhanced
user control over the content while supporting surprisingly diverse user
strategies.