Suggerimenti Intelligenti di Parole per l'Assistenza alla Scrittura
Smart Word Suggestions for Writing Assistance
May 17, 2023
Autori: Chenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao
cs.AI
Abstract
Migliorare l'uso delle parole è una funzionalità desiderata per l'assistenza alla scrittura. Per far progredire ulteriormente la ricerca in questo ambito, questo articolo introduce il task e il benchmark "Smart Word Suggestions" (SWS). A differenza di altri lavori, SWS enfatizza la valutazione end-to-end e presenta uno scenario di assistenza alla scrittura più realistico. Questo task prevede l'identificazione di parole o frasi che necessitano di miglioramento e la fornitura di suggerimenti di sostituzione. Il benchmark include dati etichettati manualmente per i test, un ampio dataset supervisionato a distanza per l'addestramento e il framework per la valutazione. I dati di test comprendono 1.000 frasi scritte da apprendenti di inglese, accompagnate da oltre 16.000 suggerimenti di sostituzione annotati da 10 parlanti nativi. Il dataset di addestramento comprende oltre 3,7 milioni di frasi e 12,7 milioni di suggerimenti generati tramite regole. I nostri esperimenti con sette baseline dimostrano che SWS è un task impegnativo. Sulla base dell'analisi sperimentale, suggeriamo potenziali direzioni per la ricerca futura su SWS. Il dataset e i codici correlati sono disponibili all'indirizzo https://github.com/microsoft/SmartWordSuggestions.
English
Enhancing word usage is a desired feature for writing assistance. To further
advance research in this area, this paper introduces "Smart Word Suggestions"
(SWS) task and benchmark. Unlike other works, SWS emphasizes end-to-end
evaluation and presents a more realistic writing assistance scenario. This task
involves identifying words or phrases that require improvement and providing
substitution suggestions. The benchmark includes human-labeled data for
testing, a large distantly supervised dataset for training, and the framework
for evaluation. The test data includes 1,000 sentences written by English
learners, accompanied by over 16,000 substitution suggestions annotated by 10
native speakers. The training dataset comprises over 3.7 million sentences and
12.7 million suggestions generated through rules. Our experiments with seven
baselines demonstrate that SWS is a challenging task. Based on experimental
analysis, we suggest potential directions for future research on SWS. The
dataset and related codes is available at
https://github.com/microsoft/SmartWordSuggestions.