Rambler: Поддержка письма с помощью речи через манипуляцию сутью с использованием языковых моделей
Rambler: Supporting Writing With Speech via LLM-Assisted Gist Manipulation
January 19, 2024
Авторы: Susan Lin, Jeremy Warner, J. D. Zamfirescu-Pereira, Matthew G. Lee, Sauhard Jain, Michael Xuelin Huang, Piyawat Lertvittayakumjorn, Shanqing Cai, Shumin Zhai, Björn Hartmann, Can Liu
cs.AI
Аннотация
Диктовка обеспечивает эффективный ввод текста на мобильных устройствах. Однако написание с помощью речи может приводить к созданию несвязного, многословного и нелогичного текста, что требует значительной постобработки. В данной статье представлен Rambler, графический интерфейс, основанный на языковой модели (LLM), который поддерживает манипуляции с продиктованным текстом на уровне смысла с помощью двух основных наборов функций: извлечение ключевых идей и макроредактирование. Извлечение ключевых идей генерирует ключевые слова и краткие содержания, которые служат опорными точками для проверки и взаимодействия с устным текстом. Макроредактирование с помощью LLM позволяет пользователям передиктовывать, разделять, объединять и преобразовывать продиктованный текст без необходимости указывать точные места редактирования. Вместе эти функции прокладывают путь для интерактивной диктовки и редактирования, которые помогают сократить разрыв между спонтанной устной речью и хорошо структурированным письменным текстом. В сравнительном исследовании с участием 12 человек, выполнявших задачи по устному составлению текста, Rambler превзошел базовый вариант, состоящий из редактора речи в текст + ChatGPT, так как он лучше способствует итеративному редактированию с усиленным контролем пользователя над содержанием, одновременно поддерживая удивительно разнообразные стратегии пользователей.
English
Dictation enables efficient text input on mobile devices. However, writing
with speech can produce disfluent, wordy, and incoherent text and thus requires
heavy post-processing. This paper presents Rambler, an LLM-powered graphical
user interface that supports gist-level manipulation of dictated text with two
main sets of functions: gist extraction and macro revision. Gist extraction
generates keywords and summaries as anchors to support the review and
interaction with spoken text. LLM-assisted macro revisions allow users to
respeak, split, merge and transform dictated text without specifying precise
editing locations. Together they pave the way for interactive dictation and
revision that help close gaps between spontaneous spoken words and
well-structured writing. In a comparative study with 12 participants performing
verbal composition tasks, Rambler outperformed the baseline of a speech-to-text
editor + ChatGPT, as it better facilitates iterative revisions with enhanced
user control over the content while supporting surprisingly diverse user
strategies.