ChatPaper.aiChatPaper

Умные подсказки слов для помощи в написании текста

Smart Word Suggestions for Writing Assistance

May 17, 2023
Авторы: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI

Аннотация

Улучшение использования слов является желательной функцией для систем помощи в написании текстов. Для дальнейшего продвижения исследований в этой области данная статья представляет задачу и эталонный тест "Умные предложения слов" (Smart Word Suggestions, SWS). В отличие от других работ, SWS делает акцент на сквозной оценке и представляет более реалистичный сценарий помощи в написании. Эта задача включает в себя выявление слов или фраз, требующих улучшения, и предоставление вариантов замены. Эталонный тест включает данные, размеченные людьми для тестирования, большой набор данных с дистанционным контролем для обучения и структуру для оценки. Тестовые данные содержат 1000 предложений, написанных изучающими английский язык, с более чем 16 000 предложений замен, аннотированных 10 носителями языка. Обучающий набор данных включает более 3,7 миллионов предложений и 12,7 миллионов предложений, сгенерированных с помощью правил. Наши эксперименты с семью базовыми моделями показывают, что SWS является сложной задачей. На основе анализа экспериментов мы предлагаем возможные направления для будущих исследований SWS. Набор данных и связанные коды доступны по адресу https://github.com/microsoft/SmartWordSuggestions.
English
Enhancing word usage is a desired feature for writing assistance. To further advance research in this area, this paper introduces "Smart Word Suggestions" (SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end evaluation and presents a more realistic writing assistance scenario. This task involves identifying words or phrases that require improvement and providing substitution suggestions. The benchmark includes human-labeled data for testing, a large distantly supervised dataset for training, and the framework for evaluation. The test data includes 1,000 sentences written by English learners, accompanied by over 16,000 substitution suggestions annotated by 10 native speakers. The training dataset comprises over 3.7 million sentences and 12.7 million suggestions generated through rules. Our experiments with seven baselines demonstrate that SWS is a challenging task. Based on experimental analysis, we suggest potential directions for future research on SWS. The dataset and related codes is available at https://github.com/microsoft/SmartWordSuggestions.
PDF20December 15, 2024