Intelligente Wortvorschläge für Schreibunterstützung
Smart Word Suggestions for Writing Assistance
May 17, 2023
Autoren: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI
Zusammenfassung
Die Verbesserung der Wortverwendung ist eine gewünschte Funktion für Schreibassistenzsysteme. Um die Forschung in diesem Bereich weiter voranzutreiben, führt dieses Papier die Aufgabe und den Benchmark „Smart Word Suggestions“ (SWS) ein. Im Gegensatz zu anderen Arbeiten betont SWS die End-to-End-Evaluierung und präsentiert ein realistischeres Szenario für Schreibassistenz. Diese Aufgabe umfasst die Identifizierung von Wörtern oder Phrasen, die verbessert werden müssen, sowie die Bereitstellung von Ersetzungsvorschlägen. Der Benchmark umfasst menschlich annotierte Daten für Tests, einen großen, distanziert überwachten Datensatz für das Training und das Framework für die Evaluierung. Die Testdaten bestehen aus 1.000 Sätzen, die von Englischlernenden verfasst wurden, und werden von über 16.000 Ersetzungsvorschlägen begleitet, die von 10 Muttersprachlern annotiert wurden. Der Trainingsdatensatz umfasst über 3,7 Millionen Sätze und 12,7 Millionen Vorschläge, die durch Regeln generiert wurden. Unsere Experimente mit sieben Baseline-Modellen zeigen, dass SWS eine anspruchsvolle Aufgabe ist. Basierend auf der experimentellen Analyse schlagen wir potenzielle Richtungen für zukünftige Forschungen zu SWS vor. Der Datensatz und die zugehörigen Codes sind unter https://github.com/microsoft/SmartWordSuggestions verfügbar.
English
Enhancing word usage is a desired feature for writing assistance. To further
advance research in this area, this paper introduces "Smart Word Suggestions"
(SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end
evaluation and presents a more realistic writing assistance scenario. This task
involves identifying words or phrases that require improvement and providing
substitution suggestions. The benchmark includes human-labeled data for
testing, a large distantly supervised dataset for training, and the framework
for evaluation. The test data includes 1,000 sentences written by English
learners, accompanied by over 16,000 substitution suggestions annotated by 10
native speakers. The training dataset comprises over 3.7 million sentences and
12.7 million suggestions generated through rules. Our experiments with seven
baselines demonstrate that SWS is a challenging task. Based on experimental
analysis, we suggest potential directions for future research on SWS. The
dataset and related codes is available at
https://github.com/microsoft/SmartWordSuggestions.