Slimme Woordsuggesties voor Schrijfondersteuning

Samenvatting

Het verbeteren van woordgebruik is een gewenste functie voor schrijfondersteuning. Om het onderzoek op dit gebied verder te bevorderen, introduceert dit artikel de taak en benchmark "Smart Word Suggestions" (SWS). In tegenstelling tot ander werk, legt SWS de nadruk op end-to-end evaluatie en presenteert het een realistischer scenario voor schrijfondersteuning. Deze taak omvat het identificeren van woorden of zinsdelen die verbetering behoeven en het geven van vervangingssuggesties. De benchmark omvat door mensen gelabelde gegevens voor testen, een grote dataset met indirect toezicht voor training en het raamwerk voor evaluatie. De testgegevens bestaan uit 1.000 zinnen geschreven door Engelse studenten, vergezeld van meer dan 16.000 vervangingssuggesties die zijn geannoteerd door 10 moedertaalsprekers. De trainingsdataset bestaat uit meer dan 3,7 miljoen zinnen en 12,7 miljoen suggesties die zijn gegenereerd via regels. Onze experimenten met zeven basislijnen tonen aan dat SWS een uitdagende taak is. Op basis van experimentele analyse suggereren we mogelijke richtingen voor toekomstig onderzoek naar SWS. De dataset en gerelateerde code zijn beschikbaar op https://github.com/microsoft/SmartWordSuggestions.

English

Enhancing word usage is a desired feature for writing assistance. To further advance research in this area, this paper introduces "Smart Word Suggestions" (SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end evaluation and presents a more realistic writing assistance scenario. This task involves identifying words or phrases that require improvement and providing substitution suggestions. The benchmark includes human-labeled data for testing, a large distantly supervised dataset for training, and the framework for evaluation. The test data includes 1,000 sentences written by English learners, accompanied by over 16,000 substitution suggestions annotated by 10 native speakers. The training dataset comprises over 3.7 million sentences and 12.7 million suggestions generated through rules. Our experiments with seven baselines demonstrate that SWS is a challenging task. Based on experimental analysis, we suggest potential directions for future research on SWS. The dataset and related codes is available at https://github.com/microsoft/SmartWordSuggestions.

Slimme Woordsuggesties voor Schrijfondersteuning

Smart Word Suggestions for Writing Assistance

Samenvatting

Support