Suggestions intelligentes de mots pour l'assistance à la rédaction
Smart Word Suggestions for Writing Assistance
May 17, 2023
Auteurs: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI
Résumé
L'amélioration de l'utilisation des mots est une fonctionnalité souhaitable pour l'assistance à la rédaction. Pour faire progresser la recherche dans ce domaine, cet article introduit la tâche et le benchmark "Smart Word Suggestions" (SWS). Contrairement à d'autres travaux, SWS met l'accent sur une évaluation de bout en bout et présente un scénario d'assistance à la rédaction plus réaliste. Cette tâche consiste à identifier les mots ou expressions nécessitant une amélioration et à proposer des suggestions de substitution. Le benchmark inclut des données annotées manuellement pour les tests, un vaste ensemble de données supervisées à distance pour l'entraînement, ainsi que le cadre d'évaluation. Les données de test comprennent 1 000 phrases rédigées par des apprenants d'anglais, accompagnées de plus de 16 000 suggestions de substitution annotées par 10 locuteurs natifs. L'ensemble de données d'entraînement comprend plus de 3,7 millions de phrases et 12,7 millions de suggestions générées par des règles. Nos expériences avec sept modèles de référence démontrent que SWS est une tâche complexe. Sur la base de l'analyse expérimentale, nous suggérons des pistes potentielles pour les recherches futures sur SWS. Le jeu de données et les codes associés sont disponibles à l'adresse suivante : https://github.com/microsoft/SmartWordSuggestions.
English
Enhancing word usage is a desired feature for writing assistance. To further
advance research in this area, this paper introduces "Smart Word Suggestions"
(SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end
evaluation and presents a more realistic writing assistance scenario. This task
involves identifying words or phrases that require improvement and providing
substitution suggestions. The benchmark includes human-labeled data for
testing, a large distantly supervised dataset for training, and the framework
for evaluation. The test data includes 1,000 sentences written by English
learners, accompanied by over 16,000 substitution suggestions annotated by 10
native speakers. The training dataset comprises over 3.7 million sentences and
12.7 million suggestions generated through rules. Our experiments with seven
baselines demonstrate that SWS is a challenging task. Based on experimental
analysis, we suggest potential directions for future research on SWS. The
dataset and related codes is available at
https://github.com/microsoft/SmartWordSuggestions.